論文の概要: Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.16065v1
- Date: Tue, 17 Mar 2026 02:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.071503
- Title: Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models
- Title(参考訳): 大規模リワードモデル:視覚言語モデルを用いた一般化可能なオンラインリワード生成
- Authors: Yanru Wu, Weiduo Yuan, Ang Qi, Vitor Guizilini, Jiageng Mao, Yue Wang,
- Abstract要約: 我々は最先端のVLMに基づく堅牢でスケーラブルな報酬モデルを開発する。
我々は、これらのVLM報酬を用いて、閉ループ方式で準最適動作を補正するモデルを導出する。
- 参考スコア(独自算出の注目度): 19.819472980239826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has shown great potential in refining robotic manipulation policies, yet its efficacy remains strongly bottlenecked by the difficulty of designing generalizable reward functions. In this paper, we propose a framework for online policy refinement by adapting foundation VLMs into online reward generators. We develop a robust, scalable reward model based on a state-of-the-art VLM, trained on a large-scale, multi-source dataset encompassing real-world robot trajectories, human-object interactions, and diverse simulated environments. Unlike prior approaches that evaluate entire trajectories post-hoc, our method leverages the VLM to formulate a multifaceted reward signal comprising process, completion, and temporal contrastive rewards based on current visual observations. Initializing with a base policy trained via Imitation Learning (IL), we employ these VLM rewards to guide the model to correct sub-optimal behaviors in a closed-loop manner. We evaluate our framework on challenging long-horizon manipulation benchmarks requiring sequential execution and precise control. Crucially, our reward model operates in a purely zero-shot manner within these test environments. Experimental results demonstrate that our method significantly improves the success rate of the initial IL policy within just 30 RL iterations, demonstrating remarkable sample efficiency. This empirical evidence highlights that VLM-generated signals can provide reliable feedback to resolve execution errors, effectively eliminating the need for manual reward engineering and facilitating efficient online refinement for robot learning.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, ロボット操作ポリシーを改良する大きな可能性を示しているが, 汎用的な報酬関数を設計することが困難であることから, その効果は大きなボトルネックとなっている。
本稿では,基礎VLMをオンライン報酬生成装置に適応させることにより,オンライン政策改善のための枠組みを提案する。
我々は、実世界のロボット軌道、人間と物体の相互作用、多様なシミュレートされた環境を含む大規模なマルチソースデータセットに基づいて、最先端のVLMに基づいて、堅牢でスケーラブルな報酬モデルを開発する。
ポストホックの軌跡全体を評価する従来の手法とは異なり、この手法はVLMを利用して、現在の視覚的観察に基づいて、プロセス、完了、時間的コントラストの報酬を含む多面的な報酬信号を定式化する。
Imitation Learning (IL) でトレーニングされた基本方針を初期化して,これらの VLM 報酬を用いて,閉ループ方式で準最適動作を補正する。
我々は、逐次実行と精密制御を必要とする長期操作ベンチマークに挑戦するフレームワークの評価を行った。
重要なことに、我々の報酬モデルは、これらのテスト環境で純粋にゼロショットで動作します。
実験結果から,本手法は,30RLイテレーションで初期ILポリシーの成功率を大幅に向上し,試料効率が著しく向上することが示された。
この実証的な証拠は、VLM生成信号が実行エラーを解決するための信頼性の高いフィードバックを提供し、手動報酬工学の必要性を効果的に排除し、ロボット学習のための効率的なオンライン改善を容易にすることを強調している。
関連論文リスト
- Reinforcement World Model Learning for LLM-based Agents [60.65003139516272]
強化世界モデル学習(Reinforcement World Model Learning, RWML)は、LDMをベースとしたエージェントのための行動教師付き世界モデルを学ぶ自己条件付き手法である。
本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させる。
本手法をALFWorldと2ドルのBenchで評価し,完全に自己管理されているにもかかわらず,ベースモデルに対する大幅な利得を観測した。
論文 参考訳(メタデータ) (2026-02-05T16:30:08Z) - Leveraging LLMs for reward function design in reinforcement learning control tasks [0.0]
本稿では,LEARN-Opt (LLM-based Evaluator and Analyzer for Reward functioN Optimization)を紹介する。
このフレームワークは、システムやタスク目標のテキスト記述から報酬関数候補を生成し、実行し、評価する。
実験の結果,LEARN-Optは最先端手法に匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-11-24T17:55:46Z) - Policy Learning from Large Vision-Language Model Feedback without Reward Modeling [19.48826538310603]
本稿では,大規模視覚言語モデル(VLM)を活用し,エージェント訓練のためのガイダンス信号を提供するPLAREを紹介する。
手動で設計した報酬関数に頼る代わりに、PLAREは視覚軌道セグメントのペアの優先ラベルに対してVLMをクエリする。
このポリシーは、教師付きコントラスト的選好学習目標を用いて、これらの選好ラベルから直接訓練される。
論文 参考訳(メタデータ) (2025-07-31T10:07:49Z) - VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。