論文の概要: UAM: A Dual-Stream Perspective on Forgetting in VLA Training
- arxiv url: http://arxiv.org/abs/2605.15735v2
- Date: Mon, 18 May 2026 07:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.191422
- Title: UAM: A Dual-Stream Perspective on Forgetting in VLA Training
- Title(参考訳): UAM: VLAトレーニングにおける留意点
- Authors: Jianke Zhang, Yuanfei Luo, Yucheng Hu, Xiaoyu Chen, Yanjiang Guo, Ziyang Liu, Hongbin Xu, Tian Lan, Jianyu Chen,
- Abstract要約: 視覚-言語-アクションモデル(VLAモデル、Vision- Language-action Model)は、通常、予め訓練された視覚-言語モデル(VLM)をアクションデータに微調整することによって構築される。
本稿では,この標準レシピがVLMのマルチモーダル能力を体系的に損なうことを示す。
生物学的ビジョンの2ストリームの組織にインスパイアされたこの劣化は、構造的ボトルネックまで遡る。
- 参考スコア(独自算出の注目度): 20.50709311546184
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision--language--action (VLA) models are typically built by fine-tuning a pretrained vision--language model (VLM) on action data. However, we show that this standard recipe systematically erodes the VLM's multimodal competence, a side effect we call the embodiment tax. But do VLAs have to forget? Inspired by the two-stream organization of biological vision, we trace this degradation to a structural bottleneck: current VLAs ask a single encoder to support both language-grounded semantics and control-relevant visual features, whereas biological vision separates recognition and visuomotor control into distinct pathways. Building on this view, we propose the Unified Action Model (UAM), which adds a parallel Dorsal Expert, an analog of the brain's dorsal pathway. To make the Dorsal Expert an effective second pathway and reduce the control-learning burden on the VLM, we initialize it from a pretrained generative model and train it with a mid-level reasoning objective that predicts visual dynamics. This design allows us to train the whole VLA end-to-end on action data alone: with no parameter freezing, no gradient stopping, and no auxiliary VL co-training, UAM retains over $95\%$ of the underlying VLM's multimodal capability and at the same time achieves the highest average success rate among baselines on a variety of manipulation tasks that probe out-of-distribution generalization, including unseen objects, novel object--target compositions, and instruction variation. Together, these results suggest that semantic preservation in VLAs can emerge from architectural separation itself, rather than being enforced by frozen weights or auxiliary data replay, and that this preserved semantic capability can naturally transfer from VLMs to semantic generalization in actions.
- Abstract(参考訳): 視覚-言語-アクションモデル(VLAモデル、Vision- Language-action Model)は、通常、予め訓練された視覚-言語モデル(VLM)をアクションデータに微調整することによって構築される。
しかしながら,この標準レシピはVLMのマルチモーダル能力を体系的に損なうことを示し,その副作用としてエボディメント税と呼ぶ。
しかし、VLAは忘れなければならないのか?
現在のVLAは、言語的意味論と制御関連視覚特徴の両方をサポートするために単一のエンコーダを要求しますが、生物学的視覚は認識と視覚の制御を別々の経路に分けています。
この観点から、脳の背側経路の類似である平行Dorsal Expert(Dorsal Expert)を付加する統一行動モデル(UAM)を提案する。
Dorsal Expert を有効な第2経路とし、VLM の制御学習負担を軽減するため、事前学習された生成モデルから初期化し、視覚力学を予測する中程度の推論目標で訓練する。
パラメータフリーズがなく、勾配停止がなく、補助的なVLコトレーニングがないため、UAMは基盤となるVLMのマルチモーダル能力の9,5\%以上を保持し、同時に、未知のオブジェクト、新しいオブジェクト-ターゲット構成、命令変動を含む、分布外一般化を探索する様々な操作タスクに基づいて、ベースライン間の平均的な成功率を達成する。
これらの結果は、凍結重量や補助データ再生によって強制されるのではなく、VLAのセマンティックな保存がアーキテクチャ上の分離そのものから生まれることを示唆し、この保存されたセマンティックな能力は、VLMからアクションにおけるセマンティックな一般化へと自然に移行することができることを示唆している。
関連論文リスト
- DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - ActionCodec: What Makes for Good Action Tokenizers [106.78093973045526]
VLA(Vision-Language-Action)モデルでは、より優れた命令追従と訓練効率が示されている。
このパラダイムの中心はアクショントークン化であるが、その設計は主に再構築の忠実さに焦点を当てている。
我々は、トレーニング効率とVLA性能の両方を大幅に向上させる高性能なアクショントークンであるtextbfActionCodecを紹介する。
論文 参考訳(メタデータ) (2026-02-17T07:07:15Z) - VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models [26.542479606920423]
VLA(Vision-Language-Action)モデルは、幅広いロボット操作タスクにおいて強力なパフォーマンスを示している。
成功にもかかわらず、大きな事前訓練されたVLAモデルをアクション空間に拡張することで、視覚-アクションのミスアライメントを誘発することができる。
VLAモデルにおける視覚的条件付けを明確に強化するトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-04T20:59:29Z) - Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future [125.92052530850425]
VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
論文 参考訳(メタデータ) (2025-12-18T16:57:44Z) - DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action [62.70893433854428]
推論能力を維持しつつ、慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0であり、8つの競合するマルチモーダルベンチマークの平均スコアは65.4であることがわかった。
論文 参考訳(メタデータ) (2025-11-27T06:03:53Z) - iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization [42.41263928527529]
VLA(Vision-Language-Action)モデルは、伝達可能な世界知識と視覚言語基盤を持つエージェントを支援できる。
しかし、これらのVLMがアクションモダリティに適合している場合、元の視覚的表現や知識がどの程度保存されているかははっきりしない。
本稿では,VLA微調整中の表現保持の系統的研究を行い,行動微調整が視覚的表現の劣化につながることを示す。
論文 参考訳(メタデータ) (2025-10-29T15:20:10Z) - Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better [58.559985503802054]
視覚言語アクション(VLA)モデルは、エンド・ツー・エンドの学習とWebスケール視覚言語モデル(VLM)トレーニングからの意味知識の伝達を組み合わせたモデルである。
最も強力なVLMは数十億から数百億のパラメータを持ち、リアルタイム推論の障害となる。
近年のVLAモデルは、アクションエキスパートや連続出力ヘッドのような効率的な連続制御のための特別なモジュールを使用している。
このような専門家を内面的に含むと、トレーニング速度と知識伝達の両方に悪影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-29T17:40:09Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。