論文の概要: VLA Foundry: A Unified Framework for Training Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2604.19728v1
- Date: Tue, 21 Apr 2026 17:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.911403
- Title: VLA Foundry: A Unified Framework for Training Vision-Language-Action Models
- Title(参考訳): VLA Foundry:ビジョンランゲージ・アクションモデルをトレーニングするための統一フレームワーク
- Authors: Jean Mercat, Sedrick Keh, Kushal Arora, Isabella Huang, Paarth Shah, Haruki Nishimura, Shun Iwase, Katherine Liu,
- Abstract要約: 我々は、単一のスタックでLLM、VLM、VLAトレーニングを統合するオープンソースのフレームワークであるVLA Foundryを紹介します。
VLA Foundryは、Hugging Faceからのストロースクラッチトレーニングと事前トレーニングバックボーンの両方をサポートする。
オープンソースシミュレータである LBM Eval 上で, 両モデルのクローズドループポリシ性能を評価した。
- 参考スコア(独自算出の注目度): 11.774960393195052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present VLA Foundry, an open-source framework that unifies LLM, VLM, and VLA training in a single codebase. Most open-source VLA efforts specialize on the action training stage, often stitching together incompatible pretraining pipelines. VLA Foundry instead provides a shared training stack with end-to-end control, from language pretraining to action-expert fine-tuning. VLA Foundry supports both from-scratch training and pretrained backbones from Hugging Face. To demonstrate the utility of our framework, we train and release two types of models: the first trained fully from scratch through our LLM-->VLM-->VLA pipeline and the second built on the pretrained Qwen3-VL backbone. We evaluate closed-loop policy performance of both models on LBM Eval, an open-data, open-source simulator. We also contribute usability improvements to the simulator and the STEP analysis tools for easier public use. In the nominal evaluation setting, our fully-open from-scratch model is on par with our prior closed-source work and substituting in the Qwen3-VL backbone leads to a strong multi-task table top manipulation policy outperforming our baseline by a wide margin. The VLA Foundry codebase is available at https://github.com/TRI-ML/vla_foundry and all multi-task model weights are released on https://huggingface.co/collections/TRI-ML/vla-foundry. Additional qualitative videos are available on the project website https://tri-ml.github.io/vla_foundry.
- Abstract(参考訳): 私たちは、単一のコードベースでLLM、VLM、VLAトレーニングを統合するオープンソースのフレームワークであるVLA Foundryを紹介します。
ほとんどのオープンソースのVLAの取り組みは、アクショントレーニングのステージに特化しており、互換性のない事前トレーニングパイプラインを縫合することが多い。
VLA Foundryは、言語事前トレーニングからアクションエキスパートの微調整まで、エンドツーエンドのコントロールを備えた共有トレーニングスタックを提供する。
VLA Foundryは、Hugging Faceからのストロースクラッチトレーニングと事前トレーニングバックボーンの両方をサポートする。
LLM-->VLM-->VLAパイプラインを通じてゼロから完全にトレーニングされた最初のモデルと、事前トレーニングされたQwen3-VLバックボーン上に構築された第2のモデルです。
オープンソースシミュレータである LBM Eval 上で, 両モデルのクローズドループポリシ性能を評価した。
また,シミュレータやSTEP解析ツールのユーザビリティ向上にも貢献し,公共利用が容易になった。
名目評価設定では、当社の完全オープン・アウト・スクラッチモデルは、これまでのクローズドソースの作業と同等であり、Qwen3-VLバックボーンに置換することで、強力なマルチタスクテーブルトップ操作ポリシーがベースラインよりも広いマージンで優れています。
VLA Foundryのコードベースはhttps://github.com/TRI-ML/vla_foundryで公開されており、マルチタスクモデルの重み付けはすべてhttps://huggingface.co/collections/TRI-ML/vla-foundryでリリースされている。
その他の定性的ビデオはプロジェクトのWebサイトhttps://tri-ml.github.io/vla_foundry.comで公開されている。
関連論文リスト
- StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing [0.0]
ジェネラリストの具体化エージェントを構築するには、知覚、言語理解、行動の統合が必要である。
本稿では、Vision-Language-Action ResearchのオープンソースであるStarVLAを紹介する。
論文 参考訳(メタデータ) (2026-04-06T17:59:21Z) - Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline [38.41143967396976]
VLA(Vision-Language-Action)モデルは、汎用的なロボットエージェントとして登場した。
既存のVLAは、過剰なパラメータスケール、禁制的な事前訓練要件、多様な実施法の適用性に障害がある。
本稿では,領域ランダム化を考慮したCEBenchを提案する。
論文 参考訳(メタデータ) (2026-02-26T06:27:37Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。