論文の概要: The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret
- arxiv url: http://arxiv.org/abs/2406.15753v2
- Date: Tue, 04 Mar 2025 15:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:36.829132
- Title: The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret
- Title(参考訳): 学習したリワード関数を最適化する危険性:低トレーニングエラーは低レギュレーションを保証しない
- Authors: Lukas Fluri, Leon Lang, Alessandro Abate, Patrick Forré, David Krueger, Joar Skalse,
- Abstract要約: 報奨モデルの十分に低いテスト誤差は、最悪の場合の後悔を確実にすることを示す。
次に、ポリシー正則化技術を用いても、同様の問題が持続することを示す。
- 参考スコア(独自算出の注目度): 64.04721528586747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning, specifying reward functions that capture the intended task can be very challenging. Reward learning aims to address this issue by learning the reward function. However, a learned reward model may have a low error on the data distribution, and yet subsequently produce a policy with large regret. We say that such a reward model has an error-regret mismatch. The main source of an error-regret mismatch is the distributional shift that commonly occurs during policy optimization. In this paper, we mathematically show that a sufficiently low expected test error of the reward model guarantees low worst-case regret, but that for any fixed expected test error, there exist realistic data distributions that allow for error-regret mismatch to occur. We then show that similar problems persist even when using policy regularization techniques, commonly employed in methods such as RLHF. We hope our results stimulate the theoretical and empirical study of improved methods to learn reward models, and better ways to measure their quality reliably.
- Abstract(参考訳): 強化学習では、意図したタスクをキャプチャする報酬関数を指定することが非常に難しい。
リワード学習は報酬関数を学習することでこの問題に対処することを目的としている。
しかし、学習した報奨モデルは、データ分布にエラーが少なく、その後、大きな後悔を伴うポリシーを生成する。
このような報酬モデルにはミスマッチがあると言っています。
エラー-回帰ミスマッチの主な原因は、ポリシー最適化中に一般的に発生する分布シフトである。
本稿では,報奨モデルの十分低いテスト誤差が最悪のケースの後悔の少ないことを数学的に証明するが,任意の固定されたテスト誤差に対して,エラー-回帰ミスマッチを許容する現実的なデータ分布が存在することを示す。
次に、RLHFのような手法でよく用いられるポリシー正則化手法を用いても、同様の問題が持続することを示す。
我々は、報酬モデルを学ぶための改善された方法の理論的および実証的研究を刺激し、彼らの品質を確実に測定する方法を期待する。
関連論文リスト
- Probabilistic Uncertain Reward Model: A Natural Generalization of Bradley-Terry Reward Model [27.40414952747553]
報奨ハッキングに対処する確率的不確実リワードモデル(PURM)を提案する。
PURMは報酬と不確実性を効果的にモデル化し、報酬ハッキングの開始を著しく遅らせることを示す。
論文 参考訳(メタデータ) (2025-03-28T14:39:52Z) - What Makes a Reward Model a Good Teacher? An Optimization Perspective [61.38643642719093]
報奨モデルによらず,報酬の分散が低い場合,RLHFの目的は平坦な景観に苦しむことが証明された。
さらに、ある言語モデルでうまく機能する報酬モデルが、低い報酬分散を誘発し、したがって、別の言語モデルに対して平坦な客観的景観をもたらすことを示す。
論文 参考訳(メタデータ) (2025-03-19T17:54:41Z) - Towards Reliable Alignment: Uncertainty-aware RLHF [14.20181662644689]
報酬モデルの変動はアライメント問題に有害であることを示す。
このような政策は、不確実な報酬に対してより慎重であるという意味で、よりリスク回避であることを示す。
我々は、この報酬モデルの集合を用いて、我々の方法論を用いて言語モデルを整列させ、我々の経験的発見が我々の理論的予測と一致することを観察する。
論文 参考訳(メタデータ) (2024-10-31T08:26:51Z) - Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification [1.0582505915332336]
報酬関数が軽み付き誤差を持つ場合、制約の少ないKL罰則の最適ポリシーは任意に高い効用が得られることを示す。
エラーが重み付けされている場合、いくつかのポリシーは、基本モデル以上の実用性は達成していないにもかかわらず、任意に高い報酬を得る。
多くの実世界のアプリケーションにおける重み付き分布の広範性は、将来のRL報酬の源泉が重み付き誤りであることを示している。
論文 参考訳(メタデータ) (2024-07-19T17:57:59Z) - Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - DOMINO: Domain-aware Loss for Deep Learning Calibration [49.485186880996125]
本稿では,ディープラーニングモデルの校正のためのドメイン認識損失関数を提案する。
提案した損失関数は、与えられた対象領域内のクラス間の類似性に基づいてクラスワイズペナルティを適用する。
論文 参考訳(メタデータ) (2023-02-10T09:47:46Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Jitter: Random Jittering Loss Function [2.716362160018477]
フラッディングと呼ばれる新しい規則化手法が、フラッディングレベルの周りでトレーニング損失を変動させる。
改良のための新しいジッター法を提案する。
Jitterはドメイン、タスク、モデルに依存しない正規化手法であり、トレーニングエラーがゼロになった後にモデルを効果的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-25T16:39:40Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。