論文の概要: All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation
- arxiv url: http://arxiv.org/abs/2603.14276v1
- Date: Sun, 15 Mar 2026 08:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.71591
- Title: All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation
- Title(参考訳): タッカー適応による終日マルチシーンの生涯視覚・言語ナビゲーション
- Authors: Xudong Wang, Gan Li, Zhiyu Liu, Yao Wang, Lianqing Liu, Zhi Han,
- Abstract要約: AML-VLN問題として,全日連続マルチシーンのVLN問題を定式化する。
本論文では,多階層ナビゲーションの知識を高次テンソルとして表現したTucker Adaptation (TuKA)を提案する。
また、複数のナビゲーションシナリオを通じて継続的に学習するAlldayWalkerというVLNエージェントも開発しています。
- 参考スコア(独自算出の注目度): 18.03268198431796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying vision-and-language navigation (VLN) agents requires adaptation across diverse scenes and environments, but fine-tuning on a specific scenario often causes catastrophic forgetting in others, which severely limits flexible long-term deployment. We formalize this challenge as the all-day multi-scenes lifelong VLN (AML-VLN) problem. Existing parameter-efficient adapters (e.g., LoRA and its variants) are limited by their two-dimensional matrix form, which fails to capture the multi-hierarchical navigation knowledge spanning multiple scenes and environments. To address this, we propose Tucker Adaptation (TuKA), which represents the multi-hierarchical navigation knowledge as a high-order tensor and leverages Tucker decomposition to decouple the knowledge into shared subspaces and scenario-specific experts. We further introduce a decoupled knowledge incremental learning strategy to consolidate shared subspaces while constraining specific experts for decoupled lifelong learning. Building on TuKA, we also develop a VLN agent named AlldayWalker, which continually learns across multiple navigation scenarios, achieving all-day multi-scenes navigation. Extensive experiments show that AlldayWalker consistently outperforms state-of-the-art baselines.
- Abstract(参考訳): 視覚・言語ナビゲーション(VLN)エージェントのデプロイには、さまざまなシーンや環境に適応する必要があるが、特定のシナリオを微調整することで、他のシナリオを破滅的に忘れてしまうことがあり、長期展開の柔軟性を著しく制限する。
本稿では,この課題を終日マルチシーンVLN(AML-VLN)問題として定式化する。
既存のパラメータ効率の高いアダプタ(例えばLoRAとその変種)は2次元の行列形式によって制限されており、複数のシーンや環境にまたがる多階層的なナビゲーションの知識を捉えることができない。
そこで本研究では,多階層的なナビゲーション知識を高次テンソルとして表現するTucker Adaptation (TuKA)を提案する。
さらに,非結合的な知識の漸進的学習戦略を導入し,共有サブスペースを集約するとともに,非結合な生涯学習のための特定の専門家を拘束する。
TuKA上に構築したAlldayWalkerというVLNエージェントも開発しています。
大規模な実験によると、AlldayWalkerは一貫して最先端のベースラインを上回っている。
関連論文リスト
- Lifelong Embodied Navigation Learning [22.062368593367623]
大規模言語モデルを用いた身体的ナビゲーションエージェントは、個々のタスクに強い性能を示してきたが、新しいナビゲーションスキルの獲得に苦慮している。
我々は,この課題を,エージェントが一連のナビゲーションタスクに適応するために必要となる,生涯実施型ナビゲーション学習(LENL)として定式化する。
ナビゲーション知識をタスク共有コンポーネントとタスク固有コンポーネントに分離する,生涯にわたる実施型ナビゲーションフレームワークであるUni-Walkerを提案する。
論文 参考訳(メタデータ) (2026-03-06T09:25:26Z) - Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos [15.251897505310682]
本稿では,自動プロセス知識マイニングと機能融合のためのイベント中心の知識向上戦略を提案する。
構造化されたセマンティック・アクション・エフェクト・イベントに非構造化ビデオストリームを抽出し、明示的なエピソード記憶として機能する。
REVERIE、R2R、R2R-CEベンチマークの実験は、我々の戦略の効率を実証している。
論文 参考訳(メタデータ) (2026-02-27T11:38:06Z) - VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:43:43Z) - Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents [43.5771856761934]
VLN(Vision-and-Language Navigation)は、自然言語命令を解釈し、複雑な3D環境をナビゲートするエージェントにとって大きな課題となる。
トランスフォーマーベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュラーフレームワークであるSkillNavを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:50:30Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - Towards Versatile Embodied Navigation [120.73460380993305]
ウィーンは多機能なエンボディナビゲーションエージェントであり、同時に4つのナビゲーションタスクを1つのモデルで実行することを学ぶ。
視覚的なナビゲーションタスクを個別に学習するのに対し、エージェントは複雑さを減らして同等またはそれ以上の性能を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-30T11:53:49Z) - History Aware Multimodal Transformer for Vision-and-Language Navigation [96.80655332881432]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)は、指示に従う自律的な視覚エージェントの構築と、実際のシーンでのナビゲーションを目的としている。
長い水平履歴をマルチモーダルな意思決定に組み込むために,HAMT(History Aware Multimodal Transformer)を導入する。
論文 参考訳(メタデータ) (2021-10-25T22:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。