論文の概要: Embodied Navigation with Auxiliary Task of Action Description Prediction
- arxiv url: http://arxiv.org/abs/2510.21809v1
- Date: Tue, 21 Oct 2025 09:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.534959
- Title: Embodied Navigation with Auxiliary Task of Action Description Prediction
- Title(参考訳): 行動記述予測補助タスクを用いた身体的ナビゲーション
- Authors: Haru Kondoh, Asako Kanezaki,
- Abstract要約: 本稿では,ナビゲーションの強化学習に言語行動を記述するタスクを補助タスクとして組み込むことを提案する。
既往の研究では, 地下構造データがないため, 強化学習に記述法を組み込むことは困難であることが判明している。
各種ナビゲーションタスクにまたがるアプローチを評価し,高いナビゲーション性能を達成しつつ,動作を記述できることを実証した。
- 参考スコア(独自算出の注目度): 6.558761304336893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of multimodal robot navigation in indoor environments has garnered significant attention in recent years. However, as tasks and methods become more advanced, the action decision systems tend to become more complex and operate as black-boxes. For a reliable system, the ability to explain or describe its decisions is crucial; however, there tends to be a trade-off in that explainable systems can not outperform non-explainable systems in terms of performance. In this paper, we propose incorporating the task of describing actions in language into the reinforcement learning of navigation as an auxiliary task. Existing studies have found it difficult to incorporate describing actions into reinforcement learning due to the absence of ground-truth data. We address this issue by leveraging knowledge distillation from pre-trained description generation models, such as vision-language models. We comprehensively evaluate our approach across various navigation tasks, demonstrating that it can describe actions while attaining high navigation performance. Furthermore, it achieves state-of-the-art performance in the particularly challenging multimodal navigation task of semantic audio-visual navigation.
- Abstract(参考訳): 近年,室内環境におけるマルチモーダルロボットナビゲーションの分野が注目されている。
しかし、タスクやメソッドが進歩するにつれて、アクション決定システムはより複雑になり、ブラックボックスとして機能する傾向にある。
信頼性の高いシステムでは、その決定を説明したり説明したりする能力は重要ですが、説明可能なシステムではパフォーマンス面で非説明可能なシステムよりも優れているというトレードオフがある傾向があります。
本稿では,ナビゲーションの強化学習に言語行動を記述するタスクを補助タスクとして組み込むことを提案する。
既往の研究では, 地下構造データがないため, 強化学習に記述法を組み込むことは困難であることが判明している。
視覚言語モデルなどの事前学習した記述生成モデルから知識蒸留を活用することでこの問題に対処する。
各種ナビゲーションタスクにまたがるアプローチを総合的に評価し,高いナビゲーション性能を達成しつつ,アクションを記述できることを実証した。
さらに、セマンティックオーディオ視覚ナビゲーションの特に難易度の高いマルチモーダルナビゲーションタスクにおいて、最先端のパフォーマンスを実現する。
関連論文リスト
- SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。
本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文 参考訳(メタデータ) (2024-12-07T06:12:53Z) - Hierarchical end-to-end autonomous navigation through few-shot waypoint detection [0.0]
人間のナビゲーションはランドマークと行動の関連によって促進される。
現在の自律ナビゲーション方式は、正確な位置決め装置とアルゴリズム、および環境から収集されたセンサーデータの広範なストリームに依存している。
本研究では,移動ロボットがこれまで知られていなかった環境をナビゲートできる階層型メタ学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T00:03:39Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - Towards Versatile Embodied Navigation [120.73460380993305]
ウィーンは多機能なエンボディナビゲーションエージェントであり、同時に4つのナビゲーションタスクを1つのモデルで実行することを学ぶ。
視覚的なナビゲーションタスクを個別に学習するのに対し、エージェントは複雑さを減らして同等またはそれ以上の性能を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-30T11:53:49Z) - Adversarial Reinforced Instruction Attacker for Robust Vision-Language
Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。
より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。
具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文 参考訳(メタデータ) (2021-07-23T14:11:31Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Building Intelligent Autonomous Navigation Agents [18.310643564200525]
この論文の目標は、物理的な知能を持つアルゴリズムの設計に向けて前進することである」。
論文の前半では、エンドツーエンドの強化学習を用いた短期ナビゲーションについて論じる。
第2部では,モジュール型学習と構造化された明示的地図表現に基づくナビゲーション手法について述べる。
論文 参考訳(メタデータ) (2021-06-25T04:10:58Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。