論文の概要: SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
- arxiv url: http://arxiv.org/abs/2412.05552v1
- Date: Sat, 07 Dec 2024 06:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:59:19.100283
- Title: SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts
- Title(参考訳): 専門家の状況適応的混合によるジェネリック言語指導型ビジュアルナビゲーションの学習
- Authors: Gengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu,
- Abstract要約: 本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。
本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
- 参考スコア(独自算出の注目度): 54.11162991206203
- License:
- Abstract: The academic field of learning instruction-guided visual navigation can be generally categorized into high-level category-specific search and low-level language-guided navigation, depending on the granularity of language instruction, in which the former emphasizes the exploration process, while the latter concentrates on following detailed textual commands. Despite the differing focuses of these tasks, the underlying requirements of interpreting instructions, comprehending the surroundings, and inferring action decisions remain consistent. This paper consolidates diverse navigation tasks into a unified and generic framework -- we investigate the core difficulties of sharing general knowledge and exploiting task-specific capabilities in learning navigation and propose a novel State-Adaptive Mixture of Experts (SAME) model that effectively enables an agent to infer decisions based on different-granularity language and dynamic observations. Powered by SAME, we present a versatile agent capable of addressing seven navigation tasks simultaneously that outperforms or achieves highly comparable performance to task-specific agents.
- Abstract(参考訳): 学習指導誘導視覚ナビゲーションの学問分野は、一般的に、言語指導の粒度に応じて、高レベルのカテゴリー別検索と低レベルの言語誘導ナビゲーションに分類することができる。
これらのタスクの異なる焦点にもかかわらず、命令を解釈し、周囲を解釈し、行動決定を推測する基本的な要件は一貫している。
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに集約し,一般知識の共有とナビゲーション学習におけるタスク固有の能力の活用という中核的な課題を考察し,エージェントが異なる粒度言語と動的観察に基づいて意思決定を効果的に推測できるような,新しい状態適応型エキスパート混合(SAME)モデルを提案する。
そこで本研究では,7つのナビゲーションタスクを同時に処理し,タスク固有のエージェントに匹敵する性能を達成できる汎用エージェントを提案する。
関連論文リスト
- TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - Rethinking Mutual Information for Language Conditioned Skill Discovery
on Imitation Learning [36.624923972563415]
我々はLanguage Conditioned Skill Discovery (LCSD)として知られるエンドツーエンドの模倣学習手法を提案する。
ベクトル量子化を利用して離散潜在スキルを学習し、軌跡のスキルシーケンスを活用して高レベルの意味的命令を再構築する。
提案手法は,未確認タスクに対する一般化能力の向上,スキル解釈性の向上,タスク完了の成功率の向上などを示す。
論文 参考訳(メタデータ) (2024-02-27T13:53:52Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Towards Versatile Embodied Navigation [120.73460380993305]
ウィーンは多機能なエンボディナビゲーションエージェントであり、同時に4つのナビゲーションタスクを1つのモデルで実行することを学ぶ。
視覚的なナビゲーションタスクを個別に学習するのに対し、エージェントは複雑さを減らして同等またはそれ以上の性能を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-30T11:53:49Z) - LISA: Learning Interpretable Skill Abstractions from Language [85.20587800593293]
言語条件による実演から多種多様な解釈可能なスキルを学習できる階層型模倣学習フレームワークを提案する。
本手法は, 逐次的意思決定問題において, 言語に対するより自然な条件付け方法を示す。
論文 参考訳(メタデータ) (2022-02-28T19:43:24Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Visual-and-Language Navigation: A Survey and Taxonomy [1.0742675209112622]
本稿では,ビジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクに関する総合的な調査を行う。
命令が与えられたら、タスクはシングルターンとマルチターンに分けられる。
この分類学は、研究者が特定のタスクの要点をよりよく把握し、将来の研究の方向性を特定することを可能にする。
論文 参考訳(メタデータ) (2021-08-26T01:51:18Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。