論文の概要: Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization
- arxiv url: http://arxiv.org/abs/2602.09722v1
- Date: Tue, 10 Feb 2026 12:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.323325
- Title: Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization
- Title(参考訳): Visual-Language-Action Model Scalingの再考:アライメント、ミックス、正規化
- Authors: Ye Wang, Sipeng Zheng, Hao Luo, Wanpeng Zhang, Haoqi Yuan, Chaoyi Xu, Haiweng Xu, Yicheng Feng, Mingyang Yu, Zhiyu Kang, Zongqing Lu, Qin Jin,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
- 参考スコア(独自算出の注目度): 65.37179698521766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision-Language-Action (VLA) models show strong promise for generalist robot control, it remains unclear whether -- and under what conditions -- the standard "scale data" recipe translates to robotics, where training data is inherently heterogeneous across embodiments, sensors, and action spaces. We present a systematic, controlled study of VLA scaling that revisits core training choices for pretraining across diverse robots. Using a representative VLA framework that combines a vision-language backbone with flow-matching, we ablate key design decisions under matched conditions and evaluate in extensive simulation and real-robot experiments. To improve the reliability of real-world results, we introduce a Grouped Blind Ensemble protocol that blinds operators to model identity and separates policy execution from outcome judgment, reducing experimenter bias. Our analysis targets three dimensions of VLA scaling. (1) Physical alignment: we show that a unified end-effector (EEF)-relative action representation is critical for robust cross-embodiment transfer. (2) Embodiment mixture: we find that naively pooling heterogeneous robot datasets often induces negative transfer rather than gains, underscoring the fragility of indiscriminate data scaling. (3) Training regularization: we observe that intuitive strategies, such as sensory dropout and multi-stage fine-tuning, do not consistently improve performance at scale. Together, this study challenge some common assumptions about embodied scaling and provide practical guidance for training large-scale VLA policies from diverse robotic data. Project website: https://research.beingbeyond.com/rethink_vla
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは汎用的なロボット制御に強い期待を示しているが、標準的な「スケールデータ」レシピがロボティクスに変換されるかどうかは不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
視覚言語バックボーンとフローマッチングを組み合わせた代表的VLAフレームワークを用いて,マッチング条件下での重要な設計決定を補正し,広範囲なシミュレーションや実ロボット実験で評価する。
実世界の結果の信頼性を向上させるために,演算子に同一性をモデル化させるグループブラインド・アンサンブルプロトコルを導入し,結果判断からポリシー実行を分離し,実験者のバイアスを低減する。
VLAスケーリングの3次元を対象とする。
1) 物理的アライメント: 統合エンドエフェクタ(EEF)の相対的動作表現は、堅牢なクロスエボディメント伝達に重要であることを示す。
2)不均質なロボットデータセットをネーティブにプールすると、利得よりも負の移動が引き起こされることが多く、不差別なデータのスケーリングの脆弱さが浮き彫りになる。
(3) 学習規則化: 感覚的ドロップアウトや多段階微調整といった直感的な戦略は, 常に性能を向上しない。
本研究では,多様なロボットデータから大規模VLAポリシーをトレーニングするための実践的ガイダンスを提供するとともに,スケーリングの具体化に関するいくつかの一般的な仮定に挑戦する。
プロジェクトウェブサイト:https://research.beingbeyond.com/rethink_vla
関連論文リスト
- Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild [37.43820830488286]
JALAは,協調型潜在行動学習のための事前学習フレームワークである。
We scale this approach with UniHand-Mix, a 7.5M video corpus (>2,000時間) mixing lab and the-the-wild footage。
実験により、JALAは制御されたシナリオと制約のないシナリオの両方でより現実的な手の動きを生成することが示された。
論文 参考訳(メタデータ) (2026-02-25T09:46:42Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。