論文の概要: Lifelong Embodied Navigation Learning
- arxiv url: http://arxiv.org/abs/2603.06073v1
- Date: Fri, 06 Mar 2026 09:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.48961
- Title: Lifelong Embodied Navigation Learning
- Title(参考訳): 生涯の身体的ナビゲーション学習
- Authors: Xudong Wang, Jiahua Dong, Baichen Liu, Qi Lyu, Lianqing Liu, Zhi Han,
- Abstract要約: 大規模言語モデルを用いた身体的ナビゲーションエージェントは、個々のタスクに強い性能を示してきたが、新しいナビゲーションスキルの獲得に苦慮している。
我々は,この課題を,エージェントが一連のナビゲーションタスクに適応するために必要となる,生涯実施型ナビゲーション学習(LENL)として定式化する。
ナビゲーション知識をタスク共有コンポーネントとタスク固有コンポーネントに分離する,生涯にわたる実施型ナビゲーションフレームワークであるUni-Walkerを提案する。
- 参考スコア(独自算出の注目度): 22.062368593367623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied navigation agents powered by large language models have shown strong performance on individual tasks but struggle to continually acquire new navigation skills, which suffer from catastrophic forgetting. We formalize this challenge as lifelong embodied navigation learning (LENL), where an agent is required to adapt to a sequence of navigation tasks spanning multiple scenes and diverse user instruction styles, while retaining previously learned knowledge. To tackle this problem, we propose Uni-Walker, a lifelong embodied navigation framework that decouples navigation knowledge into task-shared and task-specific components with Decoder Extension LoRA (DE-LoRA). To learn the shared knowledge, we design a knowledge inheritance strategy and an experts co-activation strategy to facilitate shared knowledge transfer and refinement across multiple navigation tasks. To learn the specific knowledge, we propose an expert subspace orthogonality constraint together and a navigation-specific chain-of-thought reasoning mechanism to capture specific knowledge and enhance instruction-style understanding. Extensive experiments demonstrate the superiority of Uni-Walker for building universal navigation agents with lifelong learning.
- Abstract(参考訳): 大規模な言語モデルによる身体的ナビゲーションエージェントは、個々のタスクに対して強いパフォーマンスを示してきたが、破滅的な忘れがちな新しいナビゲーションスキルの獲得に苦慮している。
我々は,この課題を生涯実施型ナビゲーション学習(LENL)として定式化し,複数のシーンと多様なユーザ指導スタイルにまたがる一連のナビゲーションタスクにエージェントが適応する必要がある。
この問題に対処するために,Decoder Extension LoRA (DE-LoRA) を用いて,ナビゲーション知識をタスク共有およびタスク固有コンポーネントに分離する,生涯にわたる組込みナビゲーションフレームワークである Uni-Walker を提案する。
共有知識を学習するために,複数のナビゲーションタスクにおける共有知識の伝達と改良を容易にするために,知識継承戦略と専門家共活性化戦略を設計する。
具体的知識を学習するために,専門的な部分空間の直交性制約と,特定の知識を捕捉し,指導スタイルの理解を高めるためのナビゲーション固有の連鎖推論機構を提案する。
生涯学習によるユニバーサルナビゲーションエージェント構築におけるUni-Walkerの優位性の実証実験を行った。
関連論文リスト
- SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。
本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文 参考訳(メタデータ) (2024-12-07T06:12:53Z) - MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains [4.941781282578696]
Vision-and-Language Navigation (VLN)タスクでは、エージェントは自然言語の指示に従って目的地に向かう必要がある。
学習ベースのアプローチはタスクに対する主要な解決策だが、高いトレーニングコストと解釈可能性の欠如に悩まされている。
近年、Large Language Models (LLMs) は強力な一般化能力のため、VLNにとって有望なツールとして登場した。
論文 参考訳(メタデータ) (2024-05-17T08:33:27Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Towards Versatile Embodied Navigation [120.73460380993305]
ウィーンは多機能なエンボディナビゲーションエージェントであり、同時に4つのナビゲーションタスクを1つのモデルで実行することを学ぶ。
視覚的なナビゲーションタスクを個別に学習するのに対し、エージェントは複雑さを減らして同等またはそれ以上の性能を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-30T11:53:49Z) - Adversarial Reinforced Instruction Attacker for Robust Vision-Language
Navigation [145.84123197129298]
自然言語に基づくナビゲーションタスクでは,言語指導が重要な役割を担っている。
より堅牢なナビゲータを訓練し、長い指導から重要な要素を動的に抽出する。
具体的には,航法士が間違った目標に移動することを誤認することを学習する動的強化命令攻撃装置(DR-Attacker)を提案する。
論文 参考訳(メタデータ) (2021-07-23T14:11:31Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。