論文の概要: ReDit: Reward Dithering for Improved LLM Policy Optimization
- arxiv url: http://arxiv.org/abs/2506.18631v1
- Date: Mon, 23 Jun 2025 13:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.00009
- Title: ReDit: Reward Dithering for Improved LLM Policy Optimization
- Title(参考訳): ReDit: LLM政策最適化のためのリワードディザリング
- Authors: Chenxing Wei, Jiarui Yu, Ying Tiffany He, Hande Dong, Yao Shu, Fei Yu,
- Abstract要約: DeepSeek-R1は、ルールベースの報酬システムを通じて、LLM(Large Language Model)推論機能の拡張に成功した。
報酬のハッキングを効果的に軽減する「完璧な」報酬システムであるが、そのような報酬機能はしばしば離散的である。
本稿では、単純なランダムノイズを加えることで離散的な報酬信号をディザリングするReDit(Reward Dithering)を提案する。
- 参考スコア(独自算出の注目度): 6.841631032347429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DeepSeek-R1 has successfully enhanced Large Language Model (LLM) reasoning capabilities through its rule-based reward system. While it's a ''perfect'' reward system that effectively mitigates reward hacking, such reward functions are often discrete. Our experimental observations suggest that discrete rewards can lead to gradient anomaly, unstable optimization, and slow convergence. To address this issue, we propose ReDit (Reward Dithering), a method that dithers the discrete reward signal by adding simple random noise. With this perturbed reward, exploratory gradients are continuously provided throughout the learning process, enabling smoother gradient updates and accelerating convergence. The injected noise also introduces stochasticity into flat reward regions, encouraging the model to explore novel policies and escape local optima. Experiments across diverse tasks demonstrate the effectiveness and efficiency of ReDit. On average, ReDit achieves performance comparable to vanilla GRPO with only approximately 10% the training steps, and furthermore, still exhibits a 4% performance improvement over vanilla GRPO when trained for a similar duration. Visualizations confirm significant mitigation of gradient issues with ReDit. Moreover, theoretical analyses are provided to further validate these advantages.
- Abstract(参考訳): DeepSeek-R1は、ルールベースの報酬システムを通じて、LLM(Large Language Model)推論機能の拡張に成功した。
報酬のハッキングを効果的に軽減する「完璧な」報酬システムであるが、そのような報酬機能はしばしば離散的である。
実験結果から,離散的な報酬が勾配異常,不安定な最適化,緩やかな収束につながることが示唆された。
この問題に対処するために、単純なランダムノイズを加えることで離散的な報酬信号をディザリングするReDit(Reward Dithering)を提案する。
この混乱した報酬によって、探索的勾配は学習プロセスを通して継続的に提供され、よりスムーズな勾配更新と収束の加速を可能にします。
注入されたノイズはまた、平坦な報酬領域に確率性を導入し、モデルに新しいポリシーを探求し、局所的な最適化から逃れるよう促す。
多様なタスクにわたる実験は、ReDitの有効性と効率を実証する。
平均すると、ReDitはトレーニングステップの10%程度でバニラGRPOに匹敵するパフォーマンスを達成しており、同じ期間のトレーニングでは、バニラGRPOよりも4%パフォーマンスが向上している。
可視化はReDitによる勾配問題の顕著な緩和を裏付ける。
さらに、これらの利点をさらに検証するために理論的分析が提供される。
関連論文リスト
- Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning [5.242869847419834]
リワード整形(Reward shaping)は、より頻繁で情報的な報酬を提供することで、スパース逆問題に対処する強化学習の技法である。
歴史的経験から得られた成功率を形づくりの報酬として組み込んだ自己適応的かつ高効率な報酬形成機構を導入する。
提案手法は, 各種タスクにおいて, 極めて少ない報奨で検証され, サンプル効率と収束安定性の顕著な向上が示された。
論文 参考訳(メタデータ) (2024-08-06T08:22:16Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Mind the Gap: Offline Policy Optimization for Imperfect Rewards [14.874900923808408]
多様な不完全な報酬を処理できる統合オフラインポリシー最適化手法である textitRGM (Reward Gap Minimization) を提案する。
下位層の双対性を生かして,オンラインインタラクションを伴わずにサンプルベースの学習を可能にする,抽出可能なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-02-03T11:39:50Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Model-free Policy Learning with Reward Gradients [9.847875182113137]
モデルを学ぶことなく報酬勾配を統合する新しいアプローチであるtextitReward Policy Gradient estimator を開発した。
また,様々な MuJoCo 制御タスクにおける近似ポリシ最適化の性能も向上する。
論文 参考訳(メタデータ) (2021-03-09T00:14:13Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。