論文の概要: StarVLA-$α$: Reducing Complexity in Vision-Language-Action Systems
- arxiv url: http://arxiv.org/abs/2604.11757v1
- Date: Mon, 13 Apr 2026 17:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.72087
- Title: StarVLA-$α$: Reducing Complexity in Vision-Language-Action Systems
- Title(参考訳): StarVLA-$α$:Vision-Language-Action Systemsにおける複雑性の低減
- Authors: Jinhui Ye, Ning Gao, Senqiao Yang, Jinliang Zheng, Zixuan Wang, Yuxin Chen, Pengguang Chen, Yilun Chen, Shu Liu, Jiaya Jia,
- Abstract要約: StarVLA-$は、制御条件下でのVLA設計選択を研究するための単純だが強力なベースラインである。
我々は,アクションモデリング戦略,ロボット固有の事前訓練,インターフェースエンジニアリングなど,いくつかの重要な設計軸を再評価する。
我々の1つのジェネラリストモデルは、公開現実のRoboChallengeベンチマークで$_0.5$を20%上回ります。
- 参考スコア(独自算出の注目度): 89.12403322299963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have recently emerged as a promising paradigm for building general-purpose robotic agents. However, the VLA landscape remains highly fragmented and complex: as existing approaches vary substantially in architectures, training data, embodiment configurations, and benchmark-specific engineering. In this work, we introduce StarVLA-$α$, a simple yet strong baseline designed to study VLA design choices under controlled conditions. StarVLA-$α$ deliberately minimizes architectural and pipeline complexity to reduce experimental confounders and enable systematic analysis. Specifically, we re-evaluate several key design axes, including action modeling strategies, robot-specific pretraining, and interface engineering. Across unified multi-benchmark training on LIBERO, SimplerEnv, RoboTwin, and RoboCasa, the same simple baseline remains highly competitive, indicating that a strong VLM backbone combined with minimal design is already sufficient to achieve strong performance without relying on additional architectural complexity or engineering tricks. Notably, our single generalist model outperforms $π_{0.5}$ by 20\% on the public real-world RoboChallenge benchmark. We expect StarVLA-$α$ to serve as a solid starting point for future research in the VLA regime. Code will be released at https://github.com/starVLA/starVLA.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは最近、汎用ロボットエージェントを構築するための有望なパラダイムとして登場した。
しかし、VLAの展望は非常に断片的で複雑で、既存のアプローチはアーキテクチャ、トレーニングデータ、実施構成、ベンチマーク固有のエンジニアリングで大きく異なります。
本稿では,制御条件下でのVLA設計選択の研究を目的とした,シンプルながら強力なベースラインであるStarVLA-$α$を紹介する。
StarVLA-$α$は、アーキテクチャとパイプラインの複雑さを意図的に最小化し、実験的な共同設立者を削減し、体系的な分析を可能にする。
具体的には、アクションモデリング戦略、ロボット固有の事前訓練、インターフェースエンジニアリングなど、いくつかの重要な設計軸を再評価する。
LIBERO、SimplerEnv、RoboTwin、RoboCasaでの統一されたマルチベンチマークトレーニング全体において、同じシンプルなベースラインは依然として非常に競争力があり、強力なVLMバックボーンと最小限の設計を組み合わせることで、追加のアーキテクチャの複雑さやエンジニアリングのトリックに頼ることなく、強力なパフォーマンスを達成するのに十分であることを示している。
特に、我々の単一ジェネラリストモデルは、公開実世界のRoboChallengeベンチマークにおいて、$π_{0.5}$を20 %上回る。
我々は、VLA体制における将来の研究の出発点としてStarVLA-$α$を期待する。
コードはhttps://github.com/starVLA/starVLAでリリースされる。
関連論文リスト
- StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing [0.0]
ジェネラリストの具体化エージェントを構築するには、知覚、言語理解、行動の統合が必要である。
本稿では、Vision-Language-Action ResearchのオープンソースであるStarVLAを紹介する。
論文 参考訳(メタデータ) (2026-04-06T17:59:21Z) - LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies [54.150202739999806]
LiLo-VLAは、新しいロングホライゾンタスクに対してゼロショットのモジュラリティをトレーニングすることなく実現できるモジュラーフレームワークである。
LIBERO-Long++とUltra-Longという2つの課題からなる21タスクのシミュレーションベンチマークを導入する。
これらのシミュレーションでは、LiLo-VLAは平均成功率69%を達成し、Pi0.5を41%、OpenVLA-OFTを67%上回った。
論文 参考訳(メタデータ) (2026-02-25T03:33:39Z) - SimVLA: A Simple VLA Baseline for Robotic Manipulation [46.38114519538192]
VLA(Vision-Language-Action)モデルは、汎用ロボット操作のための有望なパラダイムとして登場した。
我々は,VLA研究の透明な基準点を確立するために,SimVLAを紹介した。
論文 参考訳(メタデータ) (2026-02-20T14:04:27Z) - VLANeXt: Recipes for Building Strong VLA Models [95.4552662536287]
VLA(Vision-Language-Action Model)が登場し、強力な視覚と言語理解を政策学習に活用した。
多くのグループが独自のVLAモデルを提案しているが、トレーニングプロトコルと評価設定の不整合により、どの設計選択が本当に重要なのかを特定することは困難である。
コミュニティが発見を再現するための共通プラットフォームとして機能する、統一的で使いやすいフレームワークをリリースします。
論文 参考訳(メタデータ) (2026-02-20T09:26:17Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - HyperVLA: Efficient Inference in Vision-Language-Action Models via Hypernetworks [28.849312355730405]
VLA(Vision-Language-Action)モデルは、汎用的なロボットポリシーを学ぶための有望なアプローチとして登場した。
HyperVLAは、推論中に小さなタスク固有のポリシーのみを活性化する、新しいハイパーネットワーク(HN)ベースのアーキテクチャを使用している。
HyperVLAはゼロショット一般化と少数ショット適応の両方において、同様のあるいはそれ以上の成功率を達成する。
論文 参考訳(メタデータ) (2025-10-06T15:15:38Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics [37.82471658370026]
視覚言語モデル(VLM)は、豊富な視覚的および言語的知識を符号化した大規模マルチモーダルデータセットで事前訓練された。
SmolVLAは、トレーニングと推論の両方のコストを大幅に削減する、小さく、効率的で、コミュニティ主導のVLAである。
論文 参考訳(メタデータ) (2025-06-02T16:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。