論文の概要: Ethosight: A Joint-Embedding Based System for Nuanced Perception Using
Contextual Label Affinity Metric and Reasoning Based Iterative Learning
- arxiv url: http://arxiv.org/abs/2307.10577v1
- Date: Thu, 20 Jul 2023 04:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 14:49:30.260587
- Title: Ethosight: A Joint-Embedding Based System for Nuanced Perception Using
Contextual Label Affinity Metric and Reasoning Based Iterative Learning
- Title(参考訳): ethosight:文脈ラベル親和性メトリクスと推論に基づく反復学習を用いたニュアンス知覚のための共同埋め込みシステム
- Authors: Hugo Latapie, Kristinn R. Thorisson, Shan Yu, Vahagn Petrosyan,
Patrick Hammer, Pei Wang, Brandon Kynoch, Hanning Chen, Tangrui Li
- Abstract要約: ゼロショットコンピュータビジョンアルゴリズムであるEthosightを提案する。
Ethosightは、既存の象徴的知識の必要性を根絶する。
シーンの詳細を推測し、ラベルセットを反復的に洗練する。
- 参考スコア(独自算出の注目度): 8.90131632034346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional computer vision models often require extensive manual effort for
data acquisition and validation, particularly when detecting subtle behavioral
nuances or events. The difficulty in distinguishing routine behaviors from
potential risks in real-world applications, like differentiating routine
shopping from potential shoplifting, further complicates the process.
We present Ethosight, a novel zero-shot computer vision algorithm. Ethosight
eradicates the need for pre-existing symbolic knowledge, initiating from a
clean slate based on user requirements and semantic knowledge of interest.
Using localized label affinity calculations and a reasoning-guided iterative
learning loop, Ethosight infers scene details and iteratively refines the label
set. Reasoning mechanisms can be derived from large language models like GPT4,
symbolic reasoners like OpenNARS, or hybrid systems.
Ethosight further capitalizes on the capabilities of a pre-trained
multi-modal model, ImageBind, generating accurate semantic knowledge of images
within a few cycles. It successfully captures both explicit and nuanced
elements efficiently. We also introduce the implementation of Korzybski's
"time-binding" concept in machines, which allows for generational learning and
knowledge sharing across deployments.
Our evaluations demonstrate Ethosight's efficacy across 40 complex use cases.
It has exhibited an exceptional ability to discern new areas of interest,
consistently generating high-affinity scores within the top five labels from a
set of a thousand. Tests conducted across diverse environments attest to
Ethosight's robust performance. Detailed results and case studies within the
main body of this paper and an appendix underscore a promising trajectory
towards enhancing the adaptability and resilience of computer vision models in
detecting and extracting subtle and nuanced behaviors.
- Abstract(参考訳): 従来のコンピュータビジョンモデルは、データ取得と検証、特に微妙な行動のニュアンスやイベントを検出するために、広範囲な手作業を必要とする。
日常的な買い物と潜在的な万引きを区別するといった、現実世界のアプリケーションにおける潜在的なリスクとルーチンの振る舞いを区別することの難しさは、さらにプロセスを複雑にする。
本稿では,新しいゼロショットコンピュータビジョンアルゴリズムであるethosightを提案する。
ethosightは、ユーザの要求と関心のセマンティックな知識に基づいたクリーンなスレートから始まり、既存のシンボル知識の必要性を根絶する。
局所ラベル親和性計算と推論誘導反復学習ループを用いて、Ethosightはシーンの詳細を推測し、ラベルセットを反復的に洗練する。
推論メカニズムは、GPT4のような大きな言語モデル、OpenNARSのようなシンボリック推論、ハイブリッドシステムから派生することができる。
Ethosightは、事前訓練されたマルチモーダルモデルであるImageBindの機能をさらに活用し、数サイクルで画像の正確なセマンティック知識を生成する。
明示的要素とニュアンス的要素の両方を効率的にキャプチャする。
また、Korzybskiの"タイムバインディング"の概念をマシンで実装し、世代別学習とデプロイメント間の知識共有を可能にします。
以上の結果から,ethosightは40の複雑なユースケースにまたがる有効性を示す。
それは、新しい関心領域を識別する特別な能力を示し、1000のセットから上位5レーベルで常に高い親和性スコアを生成している。
さまざまな環境で実施されたテストは、ethosightの堅牢なパフォーマンスを証明している。
本論文の本体内における詳細な結果とケーススタディと付録は,微妙でニュアンスな動作の検出と抽出において,コンピュータビジョンモデルの適応性とレジリエンスを高めるための有望な軌道を示すものである。
関連論文リスト
- Evaluating the Effectiveness of Video Anomaly Detection in the Wild: Online Learning and Inference for Real-world Deployment [2.1374208474242815]
Video Anomaly Detection (VAD) は、監視から医療まで幅広い応用の鍵となる、ビデオストリームにおける異常な活動を特定する。
実生活環境でのVADに取り組むことは、人間の行動の動的な性質、環境の変化、ドメインシフトによって大きな課題となる。
オンライン学習は、モデルを新しい情報に継続的に適応させることによって、この問題を軽減するための潜在的戦略である。
論文 参考訳(メタデータ) (2024-04-29T14:47:32Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model
Perspective [67.25782152459851]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Pre-trained Recommender Systems: A Causal Debiasing Perspective [19.712997823535066]
本研究では,異なるドメインから抽出した汎用ユーザ・イテムインタラクションデータをトレーニングすることで,ユニバーサルインタラクションパターンをキャプチャする汎用レコメンデータを開発する。
実験により,提案モデルにより,ゼロショットと少数ショットの学習環境での推薦性能が大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-30T03:37:32Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。