論文の概要: A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.15937v1
- Date: Fri, 19 Sep 2025 12:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.165395
- Title: A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
- Title(参考訳): ロボット実世界強化学習のためのビジョン・ランゲージ・アクション・クリティカルモデル
- Authors: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang,
- Abstract要約: 本稿では、InternVL上に構築された一般的なプロセス報酬モデルであるVLACを紹介する。
密度の高い進行デルタと完了信号を出力し、タスク固有の報酬工学を除去する。
VLACは、知覚、ダイアログ、推論能力を強化するために、視覚言語データセットに基づいて訓練されている。
- 参考スコア(独自算出の注目度): 26.546473157595482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic real-world reinforcement learning (RL) with vision-language-action (VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient exploration. We introduce VLAC, a general process reward model built upon InternVL and trained on large scale heterogeneous datasets. Given pairwise observations and a language goal, it outputs dense progress delta and done signal, eliminating task-specific reward engineering, and supports one-shot in-context transfer to unseen tasks and environments. VLAC is trained on vision-language datasets to strengthen perception, dialogic and reasoning capabilities, together with robot and human trajectories data that ground action generation and progress estimation, and additionally strengthened to reject irrelevant prompts as well as detect regression or stagnation by constructing large numbers of negative and semantically mismatched samples. With prompt control, a single VLAC model alternately generating reward and action tokens, unifying critic and policy. Deployed inside an asynchronous real-world RL loop, we layer a graded human-in-the-loop protocol (offline demonstration replay, return and explore, human guided explore) that accelerates exploration and stabilizes early learning. Across four distinct real-world manipulation tasks, VLAC lifts success rates from about 30\% to about 90\% within 200 real-world interaction episodes; incorporating human-in-the-loop interventions yields a further 50% improvement in sample efficiency and achieves up to 100% final success.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルを用いたロボット実世界の強化学習(RL)は、スパース、手作りの報酬、非効率な探索によってボトルネックとなる。
本稿では、InternVL上に構築され、大規模な異種データセットに基づいて訓練された一般的なプロセス報酬モデルであるVLACを紹介する。
ペアワイズな観察と言語目標が与えられたら、密集した進行デルタと完了信号を生成し、タスク固有の報酬工学を排除し、見知らぬタスクや環境へのワンショットのインコンテキスト転送をサポートする。
VLACは、知覚、対話、推論能力を強化するために視覚言語データセットをトレーニングし、ロボットと人間の軌跡データとともに行動生成と進行推定を基礎にし、さらに、多くの否定的および意味的ミスマッチしたサンプルを構築して、無関係なプロンプトを拒絶し、回帰や停滞を検出するように強化されている。
即時制御により、単一のVLACモデルが報酬とアクショントークンを交互に生成し、批判とポリシーを統一する。
非同期の現実世界のRLループ内に配置し、段階的なヒューマン・イン・ザ・ループプロトコル(オフラインのデモ・リプレイ、リターン・アンド・エクスプロイト、ヒューマンガイドによる探索)を階層化し、探索を加速し、早期学習を安定化させます。
4つの異なる実世界の操作タスク全体で、VLACは200の実世界のインタラクションエピソードにおいて、成功率を約30 %から約90 %に引き上げる。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics [46.912038830356714]
本稿では,ロボット作業の進捗を推定する時間的価値関数TOPRewardを紹介する。
130以上の異なる実世界のタスクに対するゼロショット評価では、TOPRewardはQwen3-VL上で0.947の平均値順序相関(VOC)を達成する。
我々は,TOPRewardがダウンストリームアプリケーションのための汎用ツールであることを示す。
論文 参考訳(メタデータ) (2026-02-22T19:25:48Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation [37.52152452548065]
RoboGeneは多様な物理的に可能な操作タスクを生成するために設計されたエージェントフレームワークである。
広範に定量的な分析と大規模な実世界の実験を行い、18k軌道のデータセットを収集した。
結果は、RoboGeneが最先端の基礎モデルよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2026-02-18T13:29:43Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - PvP: Data-Efficient Humanoid Robot Learning with Proprioceptive-Privileged Contrastive Representations [30.986538644112105]
全体制御(WBC)は、ヒューマノイドロボットが動的環境において複雑なタスクを実行できるために不可欠である。
本稿では,固有受容的状態と特権的状態の相補性を生かした,プロプリオセプティブ・プリビレグ型コントラスト学習フレームワークを提案する。
SRL4Humanoidは,ヒューマノイドロボット学習のための代表状態表現学習法(SRL)の高品質な実装を提供する,初めての統一・モジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-12-15T08:50:20Z) - VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文 参考訳(メタデータ) (2025-05-13T13:20:46Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。