論文の概要: The Energy Loss Phenomenon in RLHF: A New Perspective on Mitigating Reward Hacking
- arxiv url: http://arxiv.org/abs/2501.19358v1
- Date: Fri, 31 Jan 2025 18:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:04.096288
- Title: The Energy Loss Phenomenon in RLHF: A New Perspective on Mitigating Reward Hacking
- Title(参考訳): RLHFにおけるエネルギー損失現象--リワードハッキングの新たな展望
- Authors: Yuchun Miao, Sen Zhang, Liang Ding, Yuqi Zhang, Lefei Zhang, Dacheng Tao,
- Abstract要約: この研究は、人間からのフィードバックからの強化学習におけるエネルギー損失現象と、そのハッキング報酬への関連を識別する。
報酬計算において最終層におけるエネルギー損失の増加をペナルティ化し,過大なエネルギー損失を防止するEnergy Los-Aware PPOアルゴリズム(EPPO)を提案する。
- 参考スコア(独自算出の注目度): 72.45765726160151
- License:
- Abstract: This work identifies the Energy Loss Phenomenon in Reinforcement Learning from Human Feedback (RLHF) and its connection to reward hacking. Specifically, energy loss in the final layer of a Large Language Model (LLM) gradually increases during the RL process, with an excessive increase in energy loss characterizing reward hacking. Beyond empirical analysis, we further provide a theoretical foundation by proving that, under mild conditions, the increased energy loss reduces the upper bound of contextual relevance in LLMs, which is a critical aspect of reward hacking as the reduced contextual relevance typically indicates overfitting to reward model-favored patterns in RL. To address this issue, we propose an Energy loss-aware PPO algorithm (EPPO) which penalizes the increase in energy loss in the LLM's final layer during reward calculation to prevent excessive energy loss, thereby mitigating reward hacking. We theoretically show that EPPO can be conceptually interpreted as an entropy-regularized RL algorithm, which provides deeper insights into its effectiveness. Extensive experiments across various LLMs and tasks demonstrate the commonality of the energy loss phenomenon, as well as the effectiveness of \texttt{EPPO} in mitigating reward hacking and improving RLHF performance.
- Abstract(参考訳): 本研究は,Reinforcement Learning from Human Feedback (RLHF)におけるEnergy Loss Phenomenonと,そのハッキングに対する関連性を明らかにする。
具体的には,大規模言語モデル(LLM)の最終層におけるエネルギー損失はRLプロセス中に徐々に増加し,報酬ハックを特徴付けるエネルギー損失が過剰に増加した。
経験的分析の他に、軽度の条件下では、エネルギー損失の増加はLLMの文脈関連性の上限を減少させ、これは報酬ハックの重要な側面である。
この問題に対処するために,LLMの最終層におけるエネルギー損失の増大をペナルティ化し,過度のエネルギー損失を防止するためのEPPOアルゴリズムを提案する。
理論的には、EPPOはエントロピー規則化RLアルゴリズムとして概念的に解釈でき、その有効性について深い洞察を提供する。
様々なLLMおよびタスクにわたる大規模な実験は、エネルギー損失現象の共通性、および報酬ハッキングの緩和とRLHF性能の向上における \texttt{EPPO} の有効性を示す。
関連論文リスト
- An exploration of the effect of quantisation on energy consumption and inference time of StarCoder2 [0.0]
本研究では,Large Language Models (LLMs) 推論におけるエネルギー消費を削減するための量子化とプルーニング戦略について検討する。
我々は,低スループットとある程度の精度の損失により,量子化によるエネルギー需要の増加を観察する。
精度の低下を最小限に抑えて効率を向上させるため,ハードウェア最適化量子化に関する今後の研究を提案する。
論文 参考訳(メタデータ) (2024-11-15T21:28:19Z) - The Perfect Blend: Redefining RLHF with Mixture of Judges [68.58426626501883]
人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2024-09-30T15:06:53Z) - Shedding More Light on Robust Classifiers under the lens of Energy-based Models [3.953603590878949]
我々は、敵対的訓練(AT)のダイナミクスについて、新しい視点を提供する。
ATにおけるエネルギー環境の分析により、標的外攻撃は、モデルの観点からの本来のデータよりも、より分散した(低エネルギー)敵画像を生成することが明らかとなった。
厳格なエビデンスを動機とした重エネルギー教育(WEAT)の提案
論文 参考訳(メタデータ) (2024-07-08T18:31:19Z) - On Feature Diversity in Energy-based Models [98.78384185493624]
エネルギーベースモデル(EBM)は通常、異なる特徴の組み合わせを学習し、入力構成ごとにエネルギーマッピングを生成する内部モデルによって構成される。
EBMのほぼ正しい(PAC)理論を拡張し,EBMの性能に及ぼす冗長性低減の影響を解析した。
論文 参考訳(メタデータ) (2023-06-02T12:30:42Z) - Uncovering Energy-Efficient Practices in Deep Learning Training:
Preliminary Steps Towards Green AI [8.025202812165412]
我々は、エネルギー消費を精度に等しい重要性の指標とみなし、無関係なタスクやエネルギー使用量を減らす。
持続可能性の観点から深層学習パイプラインの訓練段階について検討する。
ディープラーニングモデルをトレーニングするための革新的で有望なエネルギー効率のプラクティスを強調します。
論文 参考訳(メタデータ) (2023-03-24T12:48:21Z) - Optimal Planning of Hybrid Energy Storage Systems using Curtailed
Renewable Energy through Deep Reinforcement Learning [0.0]
エネルギー貯蔵システム(ESS)を計画するためのポリシーに基づくアルゴリズムを用いた高度な深層強化学習手法を提案する。
定量的性能比較の結果、DRLエージェントはシナリオベース最適化(SO)アルゴリズムよりも優れていた。
その結果、DRLエージェントは人間の専門家が行うように学習し、提案手法の信頼性が示唆された。
論文 参考訳(メタデータ) (2022-12-12T02:24:50Z) - Learning Energy Networks with Generalized Fenchel-Young Losses [34.46284877812228]
エネルギーに基づくモデル、すなわちエネルギーネットワークはエネルギー関数を最適化することで推論を行う。
学習エネルギーネットワークの自然損失構造であるFenchel-Young損失の一般化を提案する。
論文 参考訳(メタデータ) (2022-05-19T14:32:04Z) - Scaling Equilibrium Propagation to Deep ConvNets by Drastically Reducing
its Gradient Estimator Bias [62.43908463620527]
実際には、EPはMNISTよりも難しい視覚タスクにスケールしない。
我々は、有限なヌーディングの使用に固有のEPの勾配推定のバイアスがこの現象に責任があることを示しています。
これらの結果は、EPをディープニューラルネットワークにおける誤差勾配を計算するスケーラブルなアプローチとして強調し、ハードウェア実装を動機付けている。
論文 参考訳(メタデータ) (2021-01-14T10:23:40Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Risk-Aware Energy Scheduling for Edge Computing with Microgrid: A
Multi-Agent Deep Reinforcement Learning Approach [82.6692222294594]
マイクログリッドを用いたMECネットワークにおけるリスク対応エネルギースケジューリング問題について検討する。
ニューラルネットワークを用いたマルチエージェントディープ強化学習(MADRL)に基づくアドバンテージアクター・クリティック(A3C)アルゴリズムを適用し,その解を導出する。
論文 参考訳(メタデータ) (2020-02-21T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。