論文の概要: Coherent Off-Policy Improvement of Large Behavior Models with Learned Rewards
- arxiv url: http://arxiv.org/abs/2606.02194v1
- Date: Mon, 01 Jun 2026 12:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.073345
- Title: Coherent Off-Policy Improvement of Large Behavior Models with Learned Rewards
- Title(参考訳): 学習報酬を伴う大規模行動モデルのコヒーレントオフポリティ改善
- Authors: Christian Scherer, Joe Watson, Theo Gruner, Daniel Palenicek, Ingmar Posner, Jan Peters,
- Abstract要約: 強化学習は、さらなる経験を用いてポリシーを微調整するために使用することができる。
逆強化学習では、専門家によるデモンストレーションから高密度報酬関数が学習される。
提案手法は,6つのスパース操作タスクすべてに対してpi-0.5を維持・改善し,複雑な操作タスクのうち5つに対して50q 90%の成功率を達成できることを示す。
- 参考スコア(独自算出の注目度): 24.576576709809036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilling expert demonstration data into large generative models using behavioral cloning is a scalable approach to learning capable policies for robotic control, particularly for dexterous manipulation. Reinforcement learning (RL) can be used as a means to finetune these policies further using additional experience. An open question is whether RL is more sample-efficient than collecting more human demonstrations. Prior work has finetuned large pretrained policies in a scalable fashion by applying RL to a smaller residual policy that corrects the pretrained model. However, for the typical sparse reward tasks, RL algorithms can struggle to optimize the behavior in a sample-efficient manner. We explore inverse reinforcement learning, where a dense reward function is learned from expert demonstrations, potentially reducing the challenge of RL finetuning. We specifically consider coherent imitation learning, an IRL method that facilitates improvement of the BC policy through using a specific reward formulation with theoretical guarantees. We show that our IRL method maintains or improves the performance of pi-0.5 on all six sparse manipulation tasks and achieves a $\geq 90\%$ success rate on five out of six complex manipulation tasks, outperforming RL-based baselines using sparse rewards. By ensuring our initial pretrained finetuning policy is optimal for our initial reward and critic, our method circumvents the initial drop commonly seen in RL finetuning and enables faster improvement.
- Abstract(参考訳): 行動クローニングを用いた大規模な生成モデルに専門家による実証データを蒸留することは、ロボット制御、特に巧妙な操作のための有能なポリシーを学ぶためのスケーラブルなアプローチである。
強化学習(Reinforcement Learning, RL)は、これらのポリシーを更なる経験を用いて微調整する手段として用いられる。
オープンな疑問は、RLが人間のデモを集めるよりもサンプリング効率が高いかどうかである。
先行研究は、事前訓練されたモデルを補正する小さな残留ポリシーにRLを適用することにより、大規模事前学習されたポリシーをスケーラブルな方法で微調整してきた。
しかし、典型的なスパース報酬タスクでは、RLアルゴリズムはサンプル効率のよい方法で振舞いを最適化するのに苦労する。
本稿では,RLファインタニングの課題を軽減するために,専門家による実験から高密度報酬関数を学習する逆強化学習について検討する。
本稿では,理論的保証を伴う特定の報酬の定式化を用いて,BC政策の改善を促進するIRL手法であるコヒーレント模倣学習について検討する。
提案手法は6つのスパース操作タスクすべてに対してpi-0.5を維持または改善し,6つの複雑な操作タスクのうち5つに対して$\geq 90\%の成功率を達成し,スパース報酬を用いたRLベースベースラインよりも優れていることを示す。
RLファインタニングで一般的に見られる初期低下を回避し,より高速な改善を可能にする。
関連論文リスト
- RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization [65.23034604711489]
大規模な推論モデルをトレーニングするための自己改善フレームワークであるRLoopを紹介します。
RLoopはまず、RLを使用して所定のポリシからソリューション空間を探索し、成功したトラジェクトリをフィルタリングしてエキスパートデータセットを作成する。
実験の結果、RLoopsは一般化を忘れて大幅に改善し、平均精度は9%、pass@32はバニラRLに比べて15%以上向上した。
論文 参考訳(メタデータ) (2025-11-06T11:27:16Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。