論文の概要: SimVLA: A Simple VLA Baseline for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.18224v1
- Date: Fri, 20 Feb 2026 14:04:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.343624
- Title: SimVLA: A Simple VLA Baseline for Robotic Manipulation
- Title(参考訳): SimVLA: ロボット操作のためのシンプルなVLAベースライン
- Authors: Yuankai Luo, Woping Chen, Tong Liang, Baiqiao Wang, Zhenguo Li,
- Abstract要約: VLA(Vision-Language-Action)モデルは、汎用ロボット操作のための有望なパラダイムとして登場した。
我々は,VLA研究の透明な基準点を確立するために,SimVLAを紹介した。
- 参考スコア(独自算出の注目度): 46.38114519538192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic manipulation, leveraging large-scale pre-training to achieve strong performance. The field has rapidly evolved with additional spatial priors and diverse architectural innovations. However, these advancements are often accompanied by varying training recipes and implementation details, which can make it challenging to disentangle the precise source of empirical gains. In this work, we introduce SimVLA, a streamlined baseline designed to establish a transparent reference point for VLA research. By strictly decoupling perception from control, using a standard vision-language backbone and a lightweight action head, and standardizing critical training dynamics, we demonstrate that a minimal design can achieve state-of-the-art performance. Despite having only 0.5B parameters, SimVLA outperforms multi-billion-parameter models on standard simulation benchmarks without robot pretraining. SimVLA also reaches on-par real-robot performance compared to pi0.5. Our results establish SimVLA as a robust, reproducible baseline that enables clear attribution of empirical gains to future architectural innovations. Website: https://frontierrobo.github.io/SimVLA
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、大規模プレトレーニングを活用して強力なパフォーマンスを実現する汎用ロボット操作のための有望なパラダイムとして登場した。
この分野は、追加の空間的先行と多様なアーキテクチャ革新によって急速に発展してきた。
しかし、これらの進歩には様々なトレーニングのレシピや実装の詳細が伴うことが多く、経験的利得の正確な源を解き放つことは困難である。
本稿では,VLA研究の透明な基準点を確立するために設計された,流線形ベースラインであるSimVLAを紹介する。
制御から知覚を厳密に分離し、標準的な視覚言語バックボーンと軽量なアクションヘッドを用いて、クリティカルトレーニングのダイナミクスを標準化することにより、最小限の設計が最先端のパフォーマンスを達成できることを実証する。
0.5Bパラメータしか持たないにも関わらず、SimVLAはロボットの事前訓練なしに標準的なシミュレーションベンチマークでマルチビリオンパラメータモデルより優れている。
また、SimVLAはpi0.5に比べてオンパーのリアルタイムロボットのパフォーマンスも向上した。
我々の結果は、SimVLAを堅牢で再現可能なベースラインとして確立し、将来のアーキテクチャ革新への経験的利益の明確な貢献を可能にします。
ウェブサイト:https://frontierrobo.github.io/SimVLA
関連論文リスト
- VLNVerse: A Benchmark for Vision-Language Navigation with Versatile, Embodied, Realistic Simulation and Evaluation [61.82502719679122]
本稿では,Versatile, Embodied, Realistic Simulation, EvaluationのベンチマークであるVLNVerseを紹介する。
VLNVerseは、スケーラブルでフルスタックのAI問題としてVLNを再定義する。
ベンチマーク内の全てのタスクに対処できる新しいマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2025-12-22T04:27:26Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。