論文の概要: Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
- arxiv url: http://arxiv.org/abs/2602.00919v2
- Date: Sat, 07 Mar 2026 09:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.050336
- Title: Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
- Title(参考訳): Green-VLA:ジェネラリストロボットの段階的視覚言語行動モデル
- Authors: I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov,
- Abstract要約: 我々は,グリーンヒューマノイドロボット上での現実的な展開を実現するための,段階的ビジョン・ランゲージ・アクション・フレームワークであるGreen-VLAを紹介した。
我々は、時間的アライメントと品質フィルタリングを備えたスケーラブルなデータ処理パイプラインを結合し、統一されたエンボディメント対応アクションインターフェースを使用する。
Simpler BRIDGE WidowXとCALVIN ABC-Dの実験は、実ロボットの評価と同様に、RLアライメントによる強力な一般化と性能向上を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Green-VLA, a staged Vision-Language-Action (VLA) framework for real-world deployment on the Green humanoid robot while maintaining generalization across diverse embodiments. Green-VLA follows a five stage curriculum: (L0) foundational VLMs, (L1) multimodal grounding, (R0) multi-embodiment pretraining, (R1) embodiment-specific adaptation, and (R2) reinforcement-learning (RL) policy alignment. We couple a scalable data-processing pipeline (3,000 hours of demonstrations) with temporal alignment and quality filtering, and use a unified, embodiment-aware action interface enabling a single policy to control humanoids, mobile manipulators, and fixed-base arms. At inference, the VLA controller is enhanced with episode-progress prediction, out-of-distribution detection, and joint-prediction-based guidance to improve safety and precise target selection. Experiments on Simpler BRIDGE WidowX and CALVIN ABC-D, as well as real-robot evaluations, show strong generalization and performance gains from RL alignment in success rate, robustness, and long-horizon efficiency.
- Abstract(参考訳): 我々は,グリーンヒューマノイドロボットにおける実世界展開のための,多種多様な実施形態の一般化を維持しつつ,段階的ビジョン・ランゲージ・アクション(VLA)フレームワークであるGreen-VLAを紹介した。
Green-VLAは、(L0)基礎VLM、(L1)マルチモーダルグラウンド、(R0)マルチエボディメント事前訓練、(R1)エンボディメント固有の適応、(R2)強化学習(RL)ポリシーアライメントの5段階のカリキュラムに従っている。
我々は、時間的アライメントと品質フィルタリングを備えたスケーラブルなデータ処理パイプライン(3000時間のデモ)を結合し、ヒューマノイド、移動マニピュレータ、固定ベースアームを単一のポリシーで制御できる統一されたエンボディメント対応アクションインターフェースを使用する。
推測では、VLAコントローラは、エピソードプログレス予測、アウト・オブ・ディストリビューション検出、および共同予測に基づくガイダンスによって強化され、安全性と正確なターゲット選択を改善する。
Simpler BRIDGE WidowXとCALVIN ABC-Dの実験は、実ロボットの評価と同様に、成功率、ロバスト性、長距離効率においてRLアライメントによる強い一般化と性能向上を示す。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文 参考訳(メタデータ) (2026-02-10T12:25:43Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots [15.919707197385462]
MobileVLA-R1は視覚言語アクションフレームワークで、四足歩行ロボットの明確な推論と連続制御を可能にする。
本研究では,教師付きCoTアライメントとGRPO強化学習を組み合わせた2段階学習パラダイムを導入し,推論の整合性,制御安定性,長期実行を向上する。
論文 参考訳(メタデータ) (2025-11-22T02:34:10Z) - WMPO: World Model-based Policy Optimization for Vision-Language-Action Models [22.01666177489494]
VLA(Vision-Language-Action)モデルは汎用ロボット操作の強力な可能性を示している。
WMPO(World-Model-based Policy Optimization)は、実環境と対話することなく、オンラインVLAのための原則的フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T17:54:09Z) - X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model [62.21943953611646]
Vision-Language-Actionモデルは、多様なロボットプラットフォームにわたる効果的なトレーニングに依存している。
最小限のパラメータを付加したソフトプロンプト手法を提案する。
0.9Bのインスタンス化-X-VLA-0.9Bは,ベンチマークの全体にわたってSOTA性能を同時に達成することを示す。
論文 参考訳(メタデータ) (2025-10-11T16:20:17Z) - VLA-R1: Enhancing Reasoning in Vision-Language-Action Models [35.264042764326895]
VLA(Vision-Language-Action)モデルは、知覚、言語理解、行動生成を統一することを目的としている。
現在のVLAモデルは、しばしば明示的なステップバイステップ推論を欠いている。
本稿では,検証リワードからの強化学習を統合した推論強化VLAであるVLA-R1を提案する。
論文 参考訳(メタデータ) (2025-10-02T02:54:03Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - ROSA: Harnessing Robot States for Vision-Language and Action Alignment [24.426285156386715]
VLM(Vision-Language Models)は、エンドツーエンドのロボット制御において大きな進歩を遂げた。
本稿では,ロボットの状態推定を利用して視覚言語と行動空間のアライメントを改善する新しいトレーニングパラダイムROSAを提案する。
論文 参考訳(メタデータ) (2025-06-16T16:34:20Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。