論文の概要: Is Generative Communication between Embodied Agents Good for Zero-Shot ObjectNav?
- arxiv url: http://arxiv.org/abs/2408.01877v2
- Date: Sun, 11 Aug 2024 21:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 20:13:45.389713
- Title: Is Generative Communication between Embodied Agents Good for Zero-Shot ObjectNav?
- Title(参考訳): ゼロショット ObjectNav に適した人工エージェント間の生成的コミュニケーションは可能か?
- Authors: Vishnu Sashank Dorbala, Vishnu Dutt Sharma, Pratap Tokekar, Dinesh Manocha,
- Abstract要約: Zero-Shot ObjectNavでは、エンボディされた接地エージェントが自然言語ラベルで指定されたターゲットオブジェクトにナビゲートされる。
司法探索のための2つの協調ナビゲーション方式を提案する。
我々は,この具体的設定に特有な「プリエンプティブ・幻覚」の特徴を識別する。そこでは,オーバヘッドエージェントが,まだ動作していないときに,地上エージェントが対話の中でアクションを実行したと仮定する。
- 参考スコア(独自算出の注目度): 60.84730028539513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Zero-Shot ObjectNav, an embodied ground agent is expected to navigate to a target object specified by a natural language label without any environment-specific fine-tuning. This is challenging, given the limited view of a ground agent and its independent exploratory behavior. To address these issues, we consider an assistive overhead agent with a bounded global view alongside the ground agent and present two coordinated navigation schemes for judicious exploration. We establish the influence of the Generative Communication (GC) between the embodied agents equipped with Vision-Language Models (VLMs) in improving zero-shot ObjectNav, achieving a 10% improvement in the ground agent's ability to find the target object in comparison with an unassisted setup in simulation. We further analyze the GC for unique traits quantifying the presence of hallucination and cooperation. In particular, we identify a unique trait of "preemptive hallucination" specific to our embodied setting, where the overhead agent assumes that the ground agent has executed an action in the dialogue when it is yet to move. Finally, we conduct real-world inferences with GC and showcase qualitative examples where countering pre-emptive hallucination via prompt finetuning improves real-world ObjectNav performance.
- Abstract(参考訳): Zero-Shot ObjectNavでは、具体化された接地エージェントが、環境固有の微調整なしで自然言語ラベルで指定されたターゲットオブジェクトにナビゲートされる。
地上エージェントの限られた見方と、その独立した探索行動を考えると、これは難しい。
これらの問題に対処するために、地上エージェントと並んでグローバルな視野を持つ補助的オーバーヘッドエージェントと、司法探索のための2つの協調ナビゲーションスキームを提案する。
我々は、ゼロショットObjectNavを改善するためにビジョンランゲージモデル(VLM)を具備したエンボディエージェント間のジェネレーティブコミュニケーション(GC)の効果を確立し、シミュレーションにおける未支援のセットアップと比較して、対象物を見つける能力の10%向上を実現した。
我々はさらに,幻覚と協調の存在を定量化するためのGCの分析を行った。
特に,具体的設定に特有な「プリエンプティブ・幻覚」の特徴を識別する。そこでは,オーバヘッドエージェントが,まだ動作していないとき,地上エージェントが対話の中でアクションを実行したと仮定する。
最後に、GCを用いて実世界の推論を行い、プリエンプティブ幻覚に対処することで、実世界のObjectNavのパフォーマンスを向上する定性的な例を示す。
関連論文リスト
- Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。
視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。
我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-08-04T06:34:24Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - Masked Path Modeling for Vision-and-Language Navigation [41.7517631477082]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)エージェントは、自然言語の指示に従うことで現実世界の環境をナビゲートするように訓練されている。
以前のアプローチでは、トレーニング中に追加の監督を導入することでこの問題に対処しようと試みていた。
本稿では,下流ナビゲーションタスクに自己コンパイルデータを用いてエージェントを事前訓練する,マスク付きパスモデリング(MPM)手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:20:20Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Self-Supervised Domain Adaptation for Visual Navigation with Global Map
Consistency [6.385006149689549]
本稿では,視覚ナビゲーションエージェントの自己教師型適応手法を提案する。
提案課題は完全に自己監督的であり, 地味なポーズデータや明示的なノイズモデルからの監視は不要である。
実験の結果,提案課題はエージェントが新しいノイズの多い環境への移動を成功させるのに役立つことがわかった。
論文 参考訳(メタデータ) (2021-10-14T07:14:36Z) - Teaching Agents how to Map: Spatial Reasoning for Multi-Object
Navigation [11.868792440783055]
与えられた位置におけるエージェントと到達目標の間の空間的関係を定量化する指標を推定する学習は、多目的ナビゲーション設定において高い正の影響を及ぼすことを示す。
提案された補助的損失で訓練された文献の学習ベースのエージェントは、マルチオブジェクトナビゲーションチャレンジへの勝利であった。
論文 参考訳(メタデータ) (2021-07-13T12:01:05Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。