論文の概要: Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge
- arxiv url: http://arxiv.org/abs/2310.15066v1
- Date: Mon, 23 Oct 2023 16:14:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:59:25.648187
- Title: Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge
- Title(参考訳): シンボル的世界知識を用いた自我中心視からの能動物体の定位
- Authors: Te-Lin Wu, Yu Zhou, Nanyun Peng
- Abstract要約: タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
- 参考スコア(独自算出の注目度): 62.981429762309226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to actively ground task instructions from an egocentric view is
crucial for AI agents to accomplish tasks or assist humans virtually. One
important step towards this goal is to localize and track key active objects
that undergo major state change as a consequence of human actions/interactions
to the environment without being told exactly what/where to ground (e.g.,
localizing and tracking the `sponge` in video from the instruction "Dip the
`sponge` into the bucket."). While existing works approach this problem from a
pure vision perspective, we investigate to which extent the textual modality
(i.e., task instructions) and their interaction with visual modality can be
beneficial. Specifically, we propose to improve phrase grounding models'
ability on localizing the active objects by: (1) learning the role of `objects
undergoing change` and extracting them accurately from the instructions, (2)
leveraging pre- and post-conditions of the objects during actions, and (3)
recognizing the objects more robustly with descriptional knowledge. We leverage
large language models (LLMs) to extract the aforementioned action-object
knowledge, and design a per-object aggregation masking technique to effectively
perform joint inference on object phrases and symbolic knowledge. We evaluate
our framework on Ego4D and Epic-Kitchens datasets. Extensive experiments
demonstrate the effectiveness of our proposed framework, which leads to>54%
improvements in all standard metrics on the TREK-150-OPE-Det localization +
tracking task, >7% improvements in all standard metrics on the TREK-150-OPE
tracking task, and >3% improvements in average precision (AP) on the Ego4D SCOD
task.
- Abstract(参考訳): タスク指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを遂行したり、人間をバーチャルに支援する上で極めて重要です。
この目標に向けた重要なステップの1つは、人間によるアクション/インタラクションの結果として大きな状態変化を起こす重要なアクティブオブジェクトを、正確な場所や場所を告げることなく、環境にローカライズし、追跡することである(例えば、"Dip the `sponge` into the bucket")。
既存の研究は純粋視覚の観点からこの問題にアプローチしているが、テキスト的モダリティ(タスク命令)とその視覚モダリティとの相互作用がどの程度有益かを検討する。
具体的には,(1)変化中のオブジェクトの役割を学習し,指示から正確に抽出すること,(2)行動中のオブジェクトの事前条件と後条件を活用すること,(3)記述的知識でオブジェクトをより堅牢に認識することによる,アクティブなオブジェクトのローカライズにおけるフレーズ基盤モデルの能力の向上を提案する。
本研究では,大規模言語モデル(LLM)を用いて,上記の行動対象知識を抽出し,オブジェクトごとの集約マスキング手法を設計し,対象句とシンボル知識の協調推論を効果的に行う。
Ego4DとEpic-Kitchensデータセットのフレームワークを評価する。
TREK-150-OPE-Detローカライゼーション+トラッキングタスクにおける標準指標の54%改善,TREK-150-OPEトラッキングタスクにおける標準指標の7%改善,Ego4D SCODタスクにおける平均精度(AP)の3%改善,などである。
関連論文リスト
- TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object
Detection [21.11998015053674]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - AffordanceLLM: Grounding Affordance from Vision Language Models [39.174767240504714]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Object-Centric Scene Representations using Active Inference [4.298360054690217]
シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。
本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。
また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-07T06:45:19Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。