Fugu-MT 論文翻訳(概要): Improving Zero-Shot ObjectNav with Generative Communication

論文の概要: Improving Zero-Shot ObjectNav with Generative Communication

arxiv url: http://arxiv.org/abs/2408.01877v3
Date: Wed, 2 Oct 2024 01:13:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 13:07:08.090303
Title: Improving Zero-Shot ObjectNav with Generative Communication
Title（参考訳）: ジェネレーティブ通信によるゼロショットObjectNavの改善
Authors: Vishnu Sashank Dorbala, Vishnu Dutt Sharma, Pratap Tokekar, Dinesh Manocha,
Abstract要約: ゼロショットObjectNavの改良手法を提案する。私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
参考スコア（独自算出の注目度）: 60.84730028539513
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a new method for improving zero-shot ObjectNav that aims to utilize potentially available environmental percepts for navigational assistance. Our approach takes into account that the ground agent may have limited and sometimes obstructed view. Our formulation encourages Generative Communication (GC) between an assistive overhead agent with a global view containing the target object and the ground agent with an obfuscated view; both equipped with Vision-Language Models (VLMs) for vision-to-language translation. In this assisted setup, the embodied agents communicate environmental information before the ground agent executes actions towards a target. Despite the overhead agent having a global view with the target, we note a drop in performance (-13% in OSR and -13% in SPL) of a fully cooperative assistance scheme over an unassisted baseline. In contrast, a selective assistance scheme where the ground agent retains its independent exploratory behaviour shows a 10% OSR and 7.65% SPL improvement. To explain navigation performance, we analyze the GC for unique traits, quantifying the presence of hallucination and cooperation. Specifically, we identify the novel linguistic trait of preemptive hallucination in our embodied setting, where the overhead agent assumes that the ground agent has executed an action in the dialogue when it is yet to move, and note its strong correlation with navigation performance. We conduct real-world experiments and present some qualitative examples where we mitigate hallucinations via prompt finetuning to improve ObjectNav performance.
Abstract（参考訳）: 本稿では,ナビゲーション支援に利用可能な環境パーセプションを活用することを目的とした,ゼロショットObjectNavの改良手法を提案する。私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。我々の定式化は、対象物を含むグローバルな視野を持つ補助的オーバーヘッドエージェントと、難解な視野を持つ地上エージェントとの間のジェネレーティブ・コミュニケーション(GC)を奨励し、どちらも視覚言語翻訳のための視覚言語モデル(VLM)を備えている。この補助装置では、接地エージェントが目標に向かってアクションを実行する前に、実施エージェントが環境情報を伝達する。目標とグローバルな視点を持つオーバーヘッドエージェントにもかかわらず,非支援ベースライン上での完全協調支援スキームの性能低下(OSR-13%,SPL-13%)に留意する。対照的に、接地剤が独立した探索行動を維持する選択的補助スキームは、10%のOSRと7.65%のSPL改善を示す。ナビゲーション性能を説明するため,独特の特徴のGCを分析し,幻覚と協調の存在を定量化する。具体的には,頭上エージェントがまだ移動していないときに対話中に行動を実行したと仮定し,ナビゲーション性能との強い相関性に留意する。我々は実世界の実験を行い、ObjectNavのパフォーマンスを向上させるために、素早い微調整を通して幻覚を緩和する定性的な例を示す。

関連論文リスト

Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文参考訳（メタデータ） (2024-12-02T08:16:38Z)
Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文参考訳（メタデータ） (2024-08-04T06:34:24Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文参考訳（メタデータ） (2023-10-15T16:42:14Z)
Masked Path Modeling for Vision-and-Language Navigation [41.7517631477082]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)エージェントは、自然言語の指示に従うことで現実世界の環境をナビゲートするように訓練されている。以前のアプローチでは、トレーニング中に追加の監督を導入することでこの問題に対処しようと試みていた。本稿では,下流ナビゲーションタスクに自己コンパイルデータを用いてエージェントを事前訓練する,マスク付きパスモデリング(MPM)手法を提案する。
論文参考訳（メタデータ） (2023-05-23T17:20:20Z)
Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文参考訳（メタデータ） (2023-03-23T05:17:05Z)
Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文参考訳（メタデータ） (2023-03-06T20:19:19Z)
Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文参考訳（メタデータ） (2022-03-15T17:59:01Z)
Self-Supervised Domain Adaptation for Visual Navigation with Global Map Consistency [6.385006149689549]
本稿では,視覚ナビゲーションエージェントの自己教師型適応手法を提案する。提案課題は完全に自己監督的であり, 地味なポーズデータや明示的なノイズモデルからの監視は不要である。実験の結果,提案課題はエージェントが新しいノイズの多い環境への移動を成功させるのに役立つことがわかった。
論文参考訳（メタデータ） (2021-10-14T07:14:36Z)
Teaching Agents how to Map: Spatial Reasoning for Multi-Object Navigation [11.868792440783055]
与えられた位置におけるエージェントと到達目標の間の空間的関係を定量化する指標を推定する学習は、多目的ナビゲーション設定において高い正の影響を及ぼすことを示す。提案された補助的損失で訓練された文献の学習ベースのエージェントは、マルチオブジェクトナビゲーションチャレンジへの勝利であった。
論文参考訳（メタデータ） (2021-07-13T12:01:05Z)
Mutual Information-based State-Control for Intrinsically Motivated Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文参考訳（メタデータ） (2020-02-05T19:21:20Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。