論文の概要: A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.15937v1
- Date: Fri, 19 Sep 2025 12:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.165395
- Title: A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning
- Title(参考訳): ロボット実世界強化学習のためのビジョン・ランゲージ・アクション・クリティカルモデル
- Authors: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang,
- Abstract要約: 本稿では、InternVL上に構築された一般的なプロセス報酬モデルであるVLACを紹介する。
密度の高い進行デルタと完了信号を出力し、タスク固有の報酬工学を除去する。
VLACは、知覚、ダイアログ、推論能力を強化するために、視覚言語データセットに基づいて訓練されている。
- 参考スコア(独自算出の注目度): 26.546473157595482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic real-world reinforcement learning (RL) with vision-language-action (VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient exploration. We introduce VLAC, a general process reward model built upon InternVL and trained on large scale heterogeneous datasets. Given pairwise observations and a language goal, it outputs dense progress delta and done signal, eliminating task-specific reward engineering, and supports one-shot in-context transfer to unseen tasks and environments. VLAC is trained on vision-language datasets to strengthen perception, dialogic and reasoning capabilities, together with robot and human trajectories data that ground action generation and progress estimation, and additionally strengthened to reject irrelevant prompts as well as detect regression or stagnation by constructing large numbers of negative and semantically mismatched samples. With prompt control, a single VLAC model alternately generating reward and action tokens, unifying critic and policy. Deployed inside an asynchronous real-world RL loop, we layer a graded human-in-the-loop protocol (offline demonstration replay, return and explore, human guided explore) that accelerates exploration and stabilizes early learning. Across four distinct real-world manipulation tasks, VLAC lifts success rates from about 30\% to about 90\% within 200 real-world interaction episodes; incorporating human-in-the-loop interventions yields a further 50% improvement in sample efficiency and achieves up to 100% final success.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルを用いたロボット実世界の強化学習(RL)は、スパース、手作りの報酬、非効率な探索によってボトルネックとなる。
本稿では、InternVL上に構築され、大規模な異種データセットに基づいて訓練された一般的なプロセス報酬モデルであるVLACを紹介する。
ペアワイズな観察と言語目標が与えられたら、密集した進行デルタと完了信号を生成し、タスク固有の報酬工学を排除し、見知らぬタスクや環境へのワンショットのインコンテキスト転送をサポートする。
VLACは、知覚、対話、推論能力を強化するために視覚言語データセットをトレーニングし、ロボットと人間の軌跡データとともに行動生成と進行推定を基礎にし、さらに、多くの否定的および意味的ミスマッチしたサンプルを構築して、無関係なプロンプトを拒絶し、回帰や停滞を検出するように強化されている。
即時制御により、単一のVLACモデルが報酬とアクショントークンを交互に生成し、批判とポリシーを統一する。
非同期の現実世界のRLループ内に配置し、段階的なヒューマン・イン・ザ・ループプロトコル(オフラインのデモ・リプレイ、リターン・アンド・エクスプロイト、ヒューマンガイドによる探索)を階層化し、探索を加速し、早期学習を安定化させます。
4つの異なる実世界の操作タスク全体で、VLACは200の実世界のインタラクションエピソードにおいて、成功率を約30 %から約90 %に引き上げる。
関連論文リスト
- VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文 参考訳(メタデータ) (2025-05-13T13:20:46Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。