論文の概要: Efficient-VLN: A Training-Efficient Vision-Language Navigation Model
- arxiv url: http://arxiv.org/abs/2512.10310v1
- Date: Thu, 11 Dec 2025 05:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.208267
- Title: Efficient-VLN: A Training-Efficient Vision-Language Navigation Model
- Title(参考訳): 能率VLN:訓練効率のよい視覚・言語ナビゲーションモデル
- Authors: Duo Zheng, Shijia Huang, Yanyang Li, Liwei Wang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は視覚言語ナビゲーション(VLN)において有望な可能性を示している。
トレーニング効率の良いVLNモデルであるEfficient-VLNを提案する。
具体的には、トークン処理の負担を軽減するために、2つの効率的なメモリ機構を設計する。
実験により, R2R-CE (64.2% SR) と RxR-CE (67.0% SR) の最先端性能が得られた。
- 参考スコア(独自算出の注目度): 24.261272070476934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have shown promising potential in Vision-Language Navigation (VLN). However, their practical development is severely hindered by the substantial training overhead. We recognize two key issues that contribute to the overhead: (1) the quadratic computational burden from processing long-horizon historical observations as massive sequences of tokens, and (2) the exploration-efficiency trade-off in DAgger, i.e., a data aggregation process of collecting agent-explored trajectories. While more exploration yields effective error-recovery trajectories for handling test-time distribution shifts, it comes at the cost of longer trajectory lengths for both training and inference. To address these challenges, we propose Efficient-VLN, a training-efficient VLN model. Specifically, to mitigate the token processing burden, we design two efficient memory mechanisms: a progressive memory that dynamically allocates more tokens to recent observations, and a learnable recursive memory that utilizes the key-value cache of learnable tokens as the memory state. Moreover, we introduce a dynamic mixed policy to balance the exploration-efficiency trade-off. Extensive experiments show that Efficient-VLN achieves state-of-the-art performance on R2R-CE (64.2% SR) and RxR-CE (67.0% SR). Critically, our model consumes merely 282 H800 GPU hours, demonstrating a dramatic reduction in training overhead compared to state-of-the-art methods.
- Abstract(参考訳): MLLM(Multimodal large language model)は、VLN(Vision-Language Navigation)において有望な可能性を示している。
しかし、その実践的な開発は、かなりの訓練のオーバーヘッドによって著しく妨げられている。
我々は,(1)長期の歴史的観測を大量のトークン列として処理することによる2次計算負担,(2)ダッガーにおける探索効率トレードオフ,すなわちエージェント探索軌道を収集するデータ集約プロセス,という2つのオーバーヘッドに寄与する重要な問題を認識した。
より多くの探索により、テスト時間分布シフトを扱うための効果的なエラー回復軌跡が得られる一方で、トレーニングと推論の両方において長い軌道長のコストがかかる。
これらの課題に対処するため、トレーニング効率の良いVLNモデルであるEfficient-VLNを提案する。
具体的には、トークン処理負荷を軽減するために、最近の観測により多くのトークンを動的に割り当てるプログレッシブメモリと、学習可能なトークンのキー値キャッシュをメモリ状態とする学習可能な再帰メモリという、2つの効率的なメモリ機構を設計する。
さらに,探索効率トレードオフのバランスをとるために,動的混合政策を導入する。
大規模な実験により、R2R-CE(64.2% SR)とRxR-CE(67.0% SR)の最先端性能が達成された。
重要なことに、我々のモデルは282H800GPU時間しか消費せず、最先端の手法に比べてトレーニングオーバーヘッドが劇的に減少している。
関連論文リスト
- Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - The Path of Self-Evolving Large Language Models: Achieving Data-Efficient Learning via Intrinsic Feedback [51.144727949988436]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める可能性を実証した。
本研究では,最小限のデータを用いたLLによるLLMの改善について検討する。
データ依存を最小限に抑えるため、自己認識に基礎を置いた2つの新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2025-10-03T06:32:10Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding [26.39397960987363]
本稿では,事前学習したトランスモデルに対する簡単な修正を提案する。
まず最初に言語プロンプトと結合するのではなく、マルチモーダルトークンを直接中央に挿入します。
その結果,本手法は,学習と推論の双方において計算コストを削減できることが示唆された。
論文 参考訳(メタデータ) (2025-04-27T18:56:26Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Steadily Learn to Drive with Virtual Memory [11.67256846037979]
本稿では,この問題を解決するために,Learning to drive with Virtual Memory (LVM) というアルゴリズムを提案する。
LVMは、高次元情報をコンパクトな潜時状態に圧縮し、潜時ダイナミクスモデルを学び、エージェントの経験をまとめます。
LVMの有効性は、画像入力自律運転タスクによって実証される。
論文 参考訳(メタデータ) (2021-02-16T10:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。