論文の概要: VLA-0: Building State-of-the-Art VLAs with Zero Modification
- arxiv url: http://arxiv.org/abs/2510.13054v1
- Date: Wed, 15 Oct 2025 00:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.45338
- Title: VLA-0: Building State-of-the-Art VLAs with Zero Modification
- Title(参考訳): VLA-0:ゼロ修正による最先端VLAの構築
- Authors: Ankit Goyal, Hugo Hadfield, Xuning Yang, Valts Blukis, Fabio Ramos,
- Abstract要約: VLA(Vision-Language-Action Model)は、汎用的なロボット操作を可能にするための大きな約束を持っている。
この研究はVLA-0を導入し、アクションを直接テキストとして表現する最も単純な戦略を解明する。
VLA-0は有効であるだけでなく、驚くほど強力である。
- 参考スコア(独自算出の注目度): 8.916252953026888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action models (VLAs) hold immense promise for enabling generalist robot manipulation. However, the best way to build them remains an open question. Current approaches often add complexity, such as modifying the existing vocabulary of a Vision-Language Model (VLM) with action tokens or introducing special action heads. Curiously, the simplest strategy of representing actions directly as text has remained largely unexplored. This work introduces VLA-0 to investigate this idea. We find that VLA-0 is not only effective; it is surprisingly powerful. With the right design, VLA-0 outperforms more involved models. On LIBERO, a popular benchmark for evaluating VLAs, VLA-0 outperforms all existing methods trained on the same robotic data, including $\pi_0.5$-KI, OpenVLA-OFT and SmolVLA. Furthermore, without large-scale robotics-specific training, it outperforms methods trained on large-scale robotic data, like $\pi_0.5$-KI, $\pi_0$, GR00T-N1 and MolmoAct. These findings also translate to the real world, where VLA-0 outperforms SmolVLA, a VLA model pre-trained on large-scale real data. This paper summarizes our unexpected findings and spells out the specific techniques required to unlock the high performance of this simple yet potent VLA design. Visual results, code, and trained models are provided here: https://vla0.github.io/.
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、汎用的なロボット操作を可能にするための大きな約束を持っている。
しかし、それらを構築する最良の方法は、まだオープンな疑問である。
現在のアプローチでは、VLM(Vision-Language Model)の既存の語彙をアクショントークンで変更したり、特別なアクションヘッドを導入したりするなど、複雑さが増すことが多い。
奇妙なことに、アクションを直接テキストとして表現する最も単純な戦略は、ほとんど未解明のままである。
この研究は、このアイデアを調査するためにVLA-0を導入する。
VLA-0は有効であるだけでなく、驚くほど強力である。
適切な設計で、VLA-0はより関係のあるモデルより優れている。
VLAを評価するための一般的なベンチマークであるLIBEROでは、VLA-0は、$\pi_0.5$-KI、OpenVLA-OFT、SmolVLAなど、同じロボティックデータでトレーニングされたすべての既存のメソッドより優れている。
さらに、大規模なロボティクス固有のトレーニングなしでは、$\pi_0.5$-KI、$\pi_0$、GR00T-N1、MomoActなどの大規模ロボティクスデータで訓練された方法よりも優れています。
これらの結果は、VLA-0が大規模実データに基づいて事前訓練されたVLAモデルであるSmolVLAより優れている実世界にも翻訳される。
本稿では,我々の予期せぬ知見を要約し,この単純で強力なVLA設計の高性能化に必要な具体的手法について述べる。
ビジュアル結果、コード、トレーニングされたモデルがここで提供されている。
関連論文リスト
- HyperVLA: Efficient Inference in Vision-Language-Action Models via Hypernetworks [28.849312355730405]
VLA(Vision-Language-Action)モデルは、汎用的なロボットポリシーを学ぶための有望なアプローチとして登場した。
HyperVLAは、推論中に小さなタスク固有のポリシーのみを活性化する、新しいハイパーネットワーク(HN)ベースのアーキテクチャを使用している。
HyperVLAはゼロショット一般化と少数ショット適応の両方において、同様のあるいはそれ以上の成功率を達成する。
論文 参考訳(メタデータ) (2025-10-06T15:15:38Z) - SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics [37.82471658370026]
視覚言語モデル(VLM)は、豊富な視覚的および言語的知識を符号化した大規模マルチモーダルデータセットで事前訓練された。
SmolVLAは、トレーニングと推論の両方のコストを大幅に削減する、小さく、効率的で、コミュニティ主導のVLAである。
論文 参考訳(メタデータ) (2025-06-02T16:30:19Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。
本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。
我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文 参考訳(メタデータ) (2024-10-02T19:29:24Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。