論文の概要: Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.23703v1
- Date: Mon, 29 Dec 2025 18:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.561587
- Title: Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation
- Title(参考訳): ロボドーパミン:高精度ロボットマニピュレーションのための一般的なプロセスリワードモデリング
- Authors: Huajie Tan, Sixiang Chen, Yijie Xu, Zixiao Wang, Yuheng Ji, Cheng Chi, Yaoxu Lyu, Zhongxia Zhao, Xiansheng Chen, Peterson Co, Shaoxuan Xie, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang,
- Abstract要約: マルチビュー入力からプロセス報酬モデルを学ぶための新しい報酬モデルであるDopamine-Rewardを紹介する。
コアとなるのはGeneral Reward Model(GRM)で、これは3400時間以上のデータセットでトレーニングされています。
ドパミン・リワードを基盤として,ロバストな政策学習フレームワークであるドパミン・RLを提案する。
- 参考スコア(独自算出の注目度): 42.7004446545722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary obstacle for applying reinforcement learning (RL) to real-world robotics is the design of effective reward functions. While recently learning-based Process Reward Models (PRMs) are a promising direction, they are often hindered by two fundamental limitations: their reward models lack step-aware understanding and rely on single-view perception, leading to unreliable assessments of fine-grained manipulation progress; and their reward shaping procedures are theoretically unsound, often inducing a semantic trap that misguides policy optimization. To address these, we introduce Dopamine-Reward, a novel reward modeling method for learning a general-purpose, step-aware process reward model from multi-view inputs. At its core is our General Reward Model (GRM), trained on a vast 3,400+ hour dataset, which leverages Step-wise Reward Discretization for structural understanding and Multi-Perspective Reward Fusion to overcome perceptual limitations. Building upon Dopamine-Reward, we propose Dopamine-RL, a robust policy learning framework that employs a theoretically-sound Policy-Invariant Reward Shaping method, which enables the agent to leverage dense rewards for efficient self-improvement without altering the optimal policy, thereby fundamentally avoiding the semantic trap. Extensive experiments across diverse simulated and real-world tasks validate our approach. GRM achieves state-of-the-art accuracy in reward assessment, and Dopamine-RL built on GRM significantly improves policy learning efficiency. For instance, after GRM is adapted to a new task in a one-shot manner from a single expert trajectory, the resulting reward model enables Dopamine-RL to improve the policy from near-zero to 95% success with only 150 online rollouts (approximately 1 hour of real robot interaction), while retaining strong generalization across tasks. Project website: https://robo-dopamine.github.io
- Abstract(参考訳): 実世界のロボット工学に強化学習(RL)を適用する主な障害は、効果的な報酬関数の設計である。
最近の学習ベースのプロセス・リワード・モデル(Process Reward Models, PRM)は有望な方向性であるが、しばしば2つの基本的な制限によって妨げられている。
そこで本稿では,多視点入力から汎用のステップ認識プロセス報酬モデルを学ぶための新たな報酬モデリング手法であるDopamine-Rewardを紹介する。
中心となるのは、構造的理解のためにステップワイズ・リワードの離散化と、知覚的制限を克服するためにマルチパースペクティブ・リワード・フュージョンを活用する、広大な3400時間以上のデータセットでトレーニングされた、ジェネラル・リワード・モデル(GRM)です。
提案手法は,ドパミン・リワード(Dopamine-Reward)に基づくロバストな政策学習フレームワークであるDopamine-RLを提案する。
多様なシミュレートされた実世界のタスクにわたる大規模な実験は、我々のアプローチを検証する。
GRMは報酬評価における最先端の精度を達成し、GRM上に構築されたドーパミン-RLは政策学習効率を著しく向上させる。
例えば、GRMが1つの専門家軌道から1ショットで新しいタスクに適応した後、結果として得られる報酬モデルにより、Dopamine-RLは、タスク間の強力な一般化を維持しながら、150のオンラインロールアウト(実際のロボットインタラクションの約1時間)で、ほぼゼロから95%の成功まで、ポリシーを改善することができる。
プロジェクトサイト: https://robo-dopamine.github.io
関連論文リスト
- Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models [19.819472980239826]
我々は最先端のVLMに基づく堅牢でスケーラブルな報酬モデルを開発する。
我々は、これらのVLM報酬を用いて、閉ループ方式で準最適動作を補正するモデルを導出する。
論文 参考訳(メタデータ) (2026-03-17T02:22:16Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - Entropy-Regularized Process Reward Model [43.09203393852343]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。