論文の概要: GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.12099v1
- Date: Thu, 12 Feb 2026 15:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.906878
- Title: GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning
- Title(参考訳): GigaBrain-0.5M*:世界モデルに基づく強化学習から学ぶVLA
- Authors: GigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu,
- Abstract要約: 我々は、世界モデルに基づく強化学習を通して訓練されたVLAモデルである textitGigaBrain-0.5M* を提案する。
textitGigaBrain-0.5M*はTextitGigaBrain-0.5上に構築されている。
- 参考スコア(独自算出の注目度): 44.63316677431278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose \textit{GigaBrain-0.5M*}, a VLA model trained via world model-based reinforcement learning. Built upon \textit{GigaBrain-0.5}, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. \textit{GigaBrain-0.5M*} further integrates world model-based reinforcement learning via \textit{RAMP} (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that \textit{RAMP} achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including \texttt{Laundry Folding}, \texttt{Box Packing}, and \texttt{Espresso Preparation}. Critically, \textit{GigaBrain-0.5M$^*$} exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our \href{https://gigabrain05m.github.io}{project page}.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、現在の観測から直接多段階のアクションチャンクを予測し、制約のあるシーン理解と将来の予測能力の弱さによって固有の制限に直面している。
対照的に、Webスケールビデオコーパスで事前訓練されたビデオワールドモデルは、堅牢な時空間推論と正確な将来予測を示し、VLA学習の自然な基盤となっている。
そこで本研究では,世界モデルに基づく強化学習を通じて学習したVLAモデルであるtextit{GigaBrain-0.5M*}を提案する。
これは1万時間以上のロボット操作データに基づいて事前トレーニングされており、その中間バージョンは現在、国際RoboChallengeベンチマークで第1位である。
\textit{GigaBrain-0.5M*} はさらに、世界モデルベースの強化学習を \textit{RAMP} (Reinforcement leArning via world Model-conditioned Policy) を通じて統合し、堅牢なクロスタスク適応を実現する。
実験結果から, RECAPベースラインに対して, \textit{RAMP} が大幅な性能向上を達成し, \texttt{Laundry Folding} や \texttt{Box Packing} , \texttt{Espresso Preparation} などの課題に対して約 30 % の改善が得られた。
批判的に言えば、 \textit{GigaBrain-0.5M$^*$} は信頼性の高いロングホライゾン実行を示し、我々の \href{https://gigabrain05m.github.io}{project page} 上の実世界のデプロイビデオによって検証されるように、失敗することなく複雑な操作タスクを一貫して達成している。
関連論文リスト
- A Pragmatic VLA Foundation Model [66.76609538850478]
我々はLingBot-VLAを開発し、9つの人気のデュアルアームロボット構成から約2万時間のリアルタイムデータを収集した。
我々のモデルは競争相手よりも明らかな優位性を実現し、その強靭な性能と広範な一般化性を示している。
ロボット学習の分野を前進させるために、コード、ベースモデル、ベンチマークデータへのオープンアクセスを提供する。
論文 参考訳(メタデータ) (2026-01-26T17:08:04Z) - Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics [37.82471658370026]
視覚言語モデル(VLM)は、豊富な視覚的および言語的知識を符号化した大規模マルチモーダルデータセットで事前訓練された。
SmolVLAは、トレーニングと推論の両方のコストを大幅に削減する、小さく、効率的で、コミュニティ主導のVLAである。
論文 参考訳(メタデータ) (2025-06-02T16:30:19Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - RLVR-World: Training World Models with Reinforcement Learning [41.04369775904968]
検証可能な報酬で強化学習を活用する統合フレームワークであるRLVR-Worldを提案する。
我々は,テキストゲーム,Webナビゲーション,ロボット操作など,ドメイン間の言語およびビデオベースの世界モデルにおいて,大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-05-20T05:02:53Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Seer: Language Instructed Video Prediction with Latent Diffusion Models [43.708550061909754]
テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。
時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。
適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
論文 参考訳(メタデータ) (2023-03-27T03:12:24Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。