論文の概要: VLANeXt: Recipes for Building Strong VLA Models
- arxiv url: http://arxiv.org/abs/2602.18532v1
- Date: Fri, 20 Feb 2026 09:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.142971
- Title: VLANeXt: Recipes for Building Strong VLA Models
- Title(参考訳): VLANeXt: 強力なVLAモデル構築のための準備
- Authors: Xiao-Ming Wu, Bin Fan, Kang Liao, Jian-Jian Jiang, Runze Yang, Yihang Luo, Zhonghua Wu, Wei-Shi Zheng, Chen Change Loy,
- Abstract要約: VLA(Vision-Language-Action Model)が登場し、強力な視覚と言語理解を政策学習に活用した。
多くのグループが独自のVLAモデルを提案しているが、トレーニングプロトコルと評価設定の不整合により、どの設計選択が本当に重要なのかを特定することは困難である。
コミュニティが発見を再現するための共通プラットフォームとして機能する、統一的で使いやすいフレームワークをリリースします。
- 参考スコア(独自算出の注目度): 95.4552662536287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following the rise of large foundation models, Vision-Language-Action models (VLAs) emerged, leveraging strong visual and language understanding for general-purpose policy learning. Yet, the current VLA landscape remains fragmented and exploratory. Although many groups have proposed their own VLA models, inconsistencies in training protocols and evaluation settings make it difficult to identify which design choices truly matter. To bring structure to this evolving space, we reexamine the VLA design space under a unified framework and evaluation setup. Starting from a simple VLA baseline similar to RT-2 and OpenVLA, we systematically dissect design choices along three dimensions: foundational components, perception essentials, and action modelling perspectives. From this study, we distill 12 key findings that together form a practical recipe for building strong VLA models. The outcome of this exploration is a simple yet effective model, VLANeXt. VLANeXt outperforms prior state-of-the-art methods on the LIBERO and LIBERO-plus benchmarks and demonstrates strong generalization in real-world experiments. We will release a unified, easy-to-use codebase that serves as a common platform for the community to reproduce our findings, explore the design space, and build new VLA variants on top of a shared foundation.
- Abstract(参考訳): 大規模基盤モデルの台頭に伴い、視覚・言語・行動モデル(VLA)が出現し、視覚的・言語的理解が強固で汎用的な政策学習に活用された。
しかし、現在のVLAの風景は断片化され、探索的のままである。
多くのグループが独自のVLAモデルを提案しているが、トレーニングプロトコルと評価設定の不整合により、どの設計選択が本当に重要なのかを特定することは困難である。
この進化する空間に構造をもたらすため、我々は統一されたフレームワークと評価設定の下でVLA設計空間を再検討する。
RT-2 や OpenVLA と同様の単純な VLA ベースラインから始まり、基本成分、知覚必須成分、行動モデリングの観点から設計選択を体系的に区別する。
本研究は,強力なVLAモデルを構築するための実践的なレシピを形成する12の重要な知見を抽出する。
この探索の結果は単純だが効果的なモデルであるVLANeXtである。
VLANeXt は LIBERO と LIBERO のベンチマークで最先端の手法よりも優れており、実世界の実験において強力な一般化を示している。
私たちは、コミュニティが発見を再現し、設計空間を探索し、共有基盤の上に新しいVLA変異体を構築するための共通のプラットフォームとして機能する、統一的で使いやすいコードベースをリリースします。
関連論文リスト
- Pure Vision Language Action (VLA) Models: A Comprehensive Survey [16.014856048038272]
ビジョン言語アクション(VLA)モデルの出現は、従来のポリシーベースの制御から一般化されたロボット工学へのパラダイムシフトを表している。
この調査は、明確な分類学と既存の研究の体系的、包括的レビューを提供することを目的として、先進的なVLA手法を探求する。
論文 参考訳(メタデータ) (2025-09-23T13:53:52Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models [39.706833232931245]
ファンデーションビジョン言語モデル(VLM)はマルチモーダル表現学習、理解、推論において強力な能力を示す。
VLMにアクションコンポーネントを注入することにより、自然にVLA(Vision-Language-Action Models)を形成し、有望な性能を示すことができる。
本稿では,VLAの性能に大きく影響を及ぼす重要な要因を明らかにするとともに,3つの重要な設計選択に答えることに注力する。
我々はVLAの新たなファミリーであるRoboVLMsを開発し、3つのシミュレーションタスクと実世界の実験で非常に少ない手動設計と新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-18T17:07:20Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。