論文の概要: The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret
- arxiv url: http://arxiv.org/abs/2406.15753v1
- Date: Sat, 22 Jun 2024 06:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:45:08.311330
- Title: The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret
- Title(参考訳): 学習したリワード関数を最適化する危険性:低トレーニングエラーは低レギュレーションを保証しない
- Authors: Lukas Fluri, Leon Lang, Alessandro Abate, Patrick Forré, David Krueger, Joar Skalse,
- Abstract要約: 強化学習では、意図したタスクをキャプチャする報酬関数を指定することが非常に難しい。
本稿では,報奨モデルの十分低いテスト誤差が,最悪の場合の後悔を保証できることを数学的に示す。
次に、RLHFのような手法でよく用いられるポリシー正則化手法を用いても、同様の問題が持続することを示す。
- 参考スコア(独自算出の注目度): 64.04721528586747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning, specifying reward functions that capture the intended task can be very challenging. Reward learning aims to address this issue by learning the reward function. However, a learned reward model may have a low error on the training distribution, and yet subsequently produce a policy with large regret. We say that such a reward model has an error-regret mismatch. The main source of an error-regret mismatch is the distributional shift that commonly occurs during policy optimization. In this paper, we mathematically show that a sufficiently low expected test error of the reward model guarantees low worst-case regret, but that for any fixed expected test error, there exist realistic data distributions that allow for error-regret mismatch to occur. We then show that similar problems persist even when using policy regularization techniques, commonly employed in methods such as RLHF. Our theoretical results highlight the importance of developing new ways to measure the quality of learned reward models.
- Abstract(参考訳): 強化学習では、意図したタスクをキャプチャする報酬関数を指定することが非常に難しい。
リワード学習は報酬関数を学習することでこの問題に対処することを目的としている。
しかし、学習した報奨モデルはトレーニング分布に誤差が低く、その後、大きな後悔を伴うポリシーを生成する。
このような報酬モデルにはミスマッチがあると言っています。
エラー-回帰ミスマッチの主な原因は、ポリシー最適化中に一般的に発生する分布シフトである。
本稿では,報奨モデルの十分低いテスト誤差が最悪のケースの後悔の少ないことを数学的に証明するが,任意の固定されたテスト誤差に対して,エラー-回帰ミスマッチを許容する現実的なデータ分布が存在することを示す。
次に、RLHFのような手法でよく用いられるポリシー正則化手法を用いても、同様の問題が持続することを示す。
我々の理論的結果は、学習報酬モデルの品質を測定する新しい方法を開発することの重要性を強調している。
関連論文リスト
- Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification [1.0582505915332336]
報酬関数が軽み付き誤差を持つ場合、制約の少ないKL罰則の最適ポリシーは任意に高い効用が得られることを示す。
エラーが重み付けされている場合、いくつかのポリシーは、基本モデル以上の実用性は達成していないにもかかわらず、任意に高い報酬を得る。
多くの実世界のアプリケーションにおける重み付き分布の広範性は、将来のRL報酬の源泉が重み付き誤りであることを示している。
論文 参考訳(メタデータ) (2024-07-19T17:57:59Z) - Symmetric Q-learning: Reducing Skewness of Bellman Error in Online
Reinforcement Learning [55.75959755058356]
深層強化学習では、状態や行動の質を評価するために、価値関数を推定することが不可欠である。
最近の研究では、値関数を訓練する際の誤差分布はベルマン作用素の特性のためにしばしば歪むことが示唆されている。
そこで我々は,ゼロ平均分布から発生する合成ノイズを目標値に加え,ガウス誤差分布を生成するSymmetric Q-learning法を提案する。
論文 参考訳(メタデータ) (2024-03-12T14:49:19Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - DOMINO: Domain-aware Loss for Deep Learning Calibration [49.485186880996125]
本稿では,ディープラーニングモデルの校正のためのドメイン認識損失関数を提案する。
提案した損失関数は、与えられた対象領域内のクラス間の類似性に基づいてクラスワイズペナルティを適用する。
論文 参考訳(メタデータ) (2023-02-10T09:47:46Z) - Jitter: Random Jittering Loss Function [2.716362160018477]
フラッディングと呼ばれる新しい規則化手法が、フラッディングレベルの周りでトレーニング損失を変動させる。
改良のための新しいジッター法を提案する。
Jitterはドメイン、タスク、モデルに依存しない正規化手法であり、トレーニングエラーがゼロになった後にモデルを効果的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-25T16:39:40Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。