論文の概要: StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing
- arxiv url: http://arxiv.org/abs/2604.05014v1
- Date: Mon, 06 Apr 2026 17:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.408852
- Title: StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing
- Title(参考訳): StarVLA:ビジョン・ランゲージ・アクション・モデル開発のためのレゴのようなコードベース
- Authors: StarVLA Community,
- Abstract要約: ジェネラリストの具体化エージェントを構築するには、知覚、言語理解、行動の統合が必要である。
本稿では、Vision-Language-Action ResearchのオープンソースであるStarVLAを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building generalist embodied agents requires integrating perception, language understanding, and action, which are core capabilities addressed by Vision-Language-Action (VLA) approaches based on multimodal foundation models, including recent advances in vision-language models and world models. Despite rapid progress, VLA methods remain fragmented across incompatible architectures, codebases, and evaluation protocols, hindering principled comparison and reproducibility. We present StarVLA, an open-source codebase for VLA research. StarVLA addresses these challenges in three aspects. First, it provides a modular backbone--action-head architecture that supports both VLM backbones (e.g., Qwen-VL) and world-model backbones (e.g., Cosmos) alongside representative action-decoding paradigms, all under a shared abstraction in which backbone and action head can each be swapped independently. Second, it provides reusable training strategies, including cross-embodiment learning and multimodal co-training, that apply consistently across supported paradigms. Third, it integrates major benchmarks, including LIBERO, SimplerEnv, RoboTwin~2.0, RoboCasa-GR1, and BEHAVIOR-1K, through a unified evaluation interface that supports both simulation and real-robot deployment. StarVLA also ships simple, fully reproducible single-benchmark training recipes that, despite minimal data engineering, already match or surpass prior methods on multiple benchmarks with both VLM and world-model backbones. To our best knowledge, StarVLA is one of the most comprehensive open-source VLA frameworks available, and we expect it to lower the barrier for reproducing existing methods and prototyping new ones. StarVLA is being actively maintained and expanded; we will update this report as the project evolves. The code and documentation are available at https://github.com/starVLA/starVLA.
- Abstract(参考訳): 汎用的なエンボディードエージェントの構築には、視覚言語モデルや世界モデルの最近の進歩を含むマルチモーダル基盤モデルに基づくビジョン・ランゲージ・アクション(VLA)アプローチによって対処されるコア機能である知覚、言語理解、行動の統合が必要である。
急速な進歩にもかかわらず、VLAメソッドは互換性のないアーキテクチャ、コードベース、評価プロトコルで断片化され、原則的な比較と再現性を妨げている。
本稿では,VLA研究のためのオープンソースコードベースであるStarVLAを紹介する。
StarVLAはこれらの課題に3つの側面で対処する。
まず、モジュラーバックボーン-アクションヘッドアーキテクチャを提供し、VLMバックボーン(例えば、Qwen-VL)と世界モデルバックボーン(例えば、コスモス)の両方をサポートする。
第2に、クロス・エボディメント・ラーニングやマルチモーダル・コトレーニングを含む再利用可能なトレーニング戦略を提供し、サポート対象のパラダイムに一貫して適用する。
第3に、LIBERO、SimplerEnv、RoboTwin~2.0、RoboCasa-GR1、BEHAVIOR-1Kといった主要なベンチマークを、シミュレーションと実ロボットのデプロイの両方をサポートする統一された評価インターフェースを通じて統合している。
StarVLAはまた、データエンジニアリングが最小でも、すでにVLMとワールドモデルの両方のバックボーンで、複数のベンチマークで以前のメソッドにマッチまたは上回っている、シンプルで完全に再現可能なシングルベンチマークのトレーニングレシピも提供する。
私たちの知る限り、StarVLAは利用可能な最も包括的なオープンソースVLAフレームワークの1つです。
StarVLAは積極的にメンテナンスされ、拡張されています。
コードとドキュメントはhttps://github.com/starVLA/starVLAで公開されている。
関連論文リスト
- VLANeXt: Recipes for Building Strong VLA Models [95.4552662536287]
VLA(Vision-Language-Action Model)が登場し、強力な視覚と言語理解を政策学習に活用した。
多くのグループが独自のVLAモデルを提案しているが、トレーニングプロトコルと評価設定の不整合により、どの設計選択が本当に重要なのかを特定することは困難である。
コミュニティが発見を再現するための共通プラットフォームとして機能する、統一的で使いやすいフレームワークをリリースします。
論文 参考訳(メタデータ) (2026-02-20T09:26:17Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models [39.706833232931245]
ファンデーションビジョン言語モデル(VLM)はマルチモーダル表現学習、理解、推論において強力な能力を示す。
VLMにアクションコンポーネントを注入することにより、自然にVLA(Vision-Language-Action Models)を形成し、有望な性能を示すことができる。
本稿では,VLAの性能に大きく影響を及ぼす重要な要因を明らかにするとともに,3つの重要な設計選択に答えることに注力する。
我々はVLAの新たなファミリーであるRoboVLMsを開発し、3つのシミュレーションタスクと実世界の実験で非常に少ない手動設計と新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-18T17:07:20Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment [39.54689489555342]
現在の視覚注入(VL)トラッキングフレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成される。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。