論文の概要: What Makes Value Learning Efficient in Residual Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2602.10539v1
- Date: Wed, 11 Feb 2026 05:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.485327
- Title: What Makes Value Learning Efficient in Residual Reinforcement Learning?
- Title(参考訳): 残余強化学習において価値学習が効果的になる理由は何か?
- Authors: Guozheng Ma, Lu Li, Haoyu Wang, Zixuan Liu, Pierre-Luc Bacon, Dacheng Tao,
- Abstract要約: 残留強化学習(Residual reinforcement learning, RL)は、ベースを凍結し、境界修正のみを学習することにより、表現的事前訓練政策の安定したオンライン改善を可能にする。
本研究では,冷戦開始の病理学において,批判者が基本方針に関する価値景観の知識を欠いている点と,構造的スケールミスマッチという2つの主要なボトルネックを同定する。
残差RLにおける効率的な値学習を目的とした最小限のアプローチであるDAWNを提案する。
- 参考スコア(独自算出の注目度): 57.635661297706065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Residual reinforcement learning (RL) enables stable online refinement of expressive pretrained policies by freezing the base and learning only bounded corrections. However, value learning in residual RL poses unique challenges that remain poorly understood. In this work, we identify two key bottlenecks: cold start pathology, where the critic lacks knowledge of the value landscape around the base policy, and structural scale mismatch, where the residual contribution is dwarfed by the base action. Through systematic investigation, we uncover the mechanisms underlying these bottlenecks, revealing that simple yet principled solutions suffice: base-policy transitions serve as an essential value anchor for implicit warmup, and critic normalization effectively restores representation sensitivity for discerning value differences. Based on these insights, we propose DAWN (Data-Anchored Warmup and Normalization), a minimal approach targeting efficient value learning in residual RL. By addressing these bottlenecks, DAWN demonstrates substantial efficiency gains across diverse benchmarks, policy architectures, and observation modalities.
- Abstract(参考訳): 残留強化学習(Residual reinforcement learning, RL)は、ベースを凍結し、境界修正のみを学習することにより、表現的事前訓練政策の安定したオンライン改善を可能にする。
しかし、残差RLにおける価値学習は、未理解のままのユニークな課題を生んでいる。
本研究は, 冷間開始の病理学において, 批判者が基本方針周辺の価値景観の知識を欠いている点と, 残余の寄与が基本行動によって軽視される構造的スケールミスマッチの2つの主要なボトルネックを同定する。
基本政治遷移は暗黙のウォームアップに不可欠な値アンカーとして機能し、批判的正規化は、値差を識別するための表現感度を効果的に復元する。
これらの知見に基づき、残差RLにおける効率的な値学習を目的とした最小限のアプローチであるDAWN(Data-Anchored Warmup and Normalization)を提案する。
これらのボトルネックに対処することで、DAWNは様々なベンチマーク、ポリシーアーキテクチャ、観察モダリティでかなりの効率向上を示す。
関連論文リスト
- Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - How to Provably Improve Return Conditioned Supervised Learning? [26.915055027485465]
本稿では、Reinforced RCSLと呼ばれる原理的でシンプルなフレームワークを提案する。
私たちのフレームワークのキーとなる革新は、分配の最適リターンという概念の導入です。
理論解析により,Reinforced RCSL は標準RCSL のアプローチより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-10T05:37:51Z) - Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。