論文の概要: GRADE: Replacing Policy Gradients with Backpropagation for LLM Alignment
- arxiv url: http://arxiv.org/abs/2601.11574v1
- Date: Tue, 30 Dec 2025 03:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.764902
- Title: GRADE: Replacing Policy Gradients with Backpropagation for LLM Alignment
- Title(参考訳): GRADE: LLMアライメントのバックプロパゲーションによるポリシーグラデーションのリプレース
- Authors: Lukas Abrie Nel,
- Abstract要約: GRADEは、高分散ポリシー勾配推定を直接バックプロパゲーションに置き換える手法である。
GRADE-STEはPPOの0.510+-0.313とREINFORCEの0.617+-0.378と比較して0.763+-0.344の試験報酬を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has become the dominant paradigm for aligning large language models with human preferences. However, policy gradient methods such as PPO suffer from high variance gradient estimates, requiring careful hyperparameter tuning and extensive computational resources. We introduce GRADE (Gumbel-softmax Relaxation for Alignment via Differentiable Estimation), a method that replaces high-variance policy gradient estimation with direct backpropagation through a differentiable relaxation of the discrete token sampling process. Using the Gumbel-Softmax reparameterization with straight-through estimation (GRADE-STE), we enable end-to-end gradient flow from reward signals through generated tokens to model parameters. On sentiment-controlled text generation using the IMDB dataset, GRADE-STE achieves a test reward of 0.763 +- 0.344 compared to PPO's 0.510 +- 0.313 and REINFORCE's 0.617 +- 0.378, representing a 50% relative improvement over PPO. Critically, GRADE-STE exhibits gradient variance over 14 times lower than REINFORCE and maintains stable training dynamics throughout optimization. Our rigorous evaluation with proper train/validation/test splits demonstrates that these improvements generalize to held-out data, with GRADE-STE showing the best generalization characteristics among all methods tested. GRADE offers a simpler, more stable, and more effective alternative to reinforcement learning for LLM alignment.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルと人間の嗜好を整合させる主要なパラダイムとなっている。
しかし、PPOのような政策勾配法は高分散勾配推定に悩まされており、注意深いハイパーパラメータチューニングと広範な計算資源を必要とする。
本稿では、離散トークンサンプリングプロセスの微分緩和により、高分散ポリシー勾配推定を直接バックプロパゲーションに置き換えるGRADE(Gumbel-softmax Relaxation for Alignment via Differentiable Estimation)を紹介する。
Gumbel-Softmax再パラメータ化とストレートスルー推定(GRADE-STE)を用いて、生成したトークンからモデルパラメータへの報酬信号からのエンドツーエンドの勾配フローを可能にする。
IMDBデータセットを用いた感情制御テキスト生成では、GRADE-STEはPPOの0.510+-0.313とREINFORCEの0.617+-0.378と比較して0.763+-0.344で、PPOに対する50%の相対的な改善を示している。
臨界的に、GRADE-STEはREINFORCEの14倍以上の勾配分散を示し、最適化全体を通して安定したトレーニングダイナミクスを維持している。
列車/バリデーション/テスト分割による厳密な評価は、これらの改善がホールドアウトデータに一般化されることを示し、GRADE-STEはテストされたすべてのメソッドで最高の一般化特性を示す。
GRADEは、LLMアライメントのための強化学習の、よりシンプルで、より安定し、より効果的な代替手段を提供する。
関連論文リスト
- Low-Rank Curvature for Zeroth-Order Optimization in LLM Fine-Tuning [8.349781300731225]
LOREN (curvature-aware zeroth-order (ZO) optimization method for fine-tuning large language model (LLMs)) を紹介する。
乱摂動を用いた有限差分による勾配推定を行う既存のZO法は、しばしば高いばらつきと準最適探索方向に悩まされる。
i) 勾配推定のための異方性摂動分布を適応的に推定し, (ii) 低ランクブロック対角前処理器で曲率を計測し, (iii) ばらつきを抑えるためにREINFORCEスタンス・ワン・アウト(RLOO) 勾配推定器を適用することにより, これらの課題に対処する。
論文 参考訳(メタデータ) (2025-11-11T08:34:09Z) - Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization [0.0]
Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-06T20:09:37Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - FedHL: Federated Learning for Heterogeneous Low-Rank Adaptation via Unbiased Aggregation [6.5370850242187855]
フェデレートラーニング(FL)は、分散データソースを使用したファンデーションモデル(FM)の微調整を容易にする。
Low-Rank Adaptation (LoRA) は通信コストの低さと高い性能で人気を博している。
既存の手法ではパラメータの切り離しとバイアス付き勾配更新による公式収束保証が欠如している。
論文 参考訳(メタデータ) (2025-05-24T04:12:12Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Non-asymptotic Analysis of Biased Adaptive Stochastic Approximation [3.328448170090945]
適応的なステップを持つグラディエントDescent(SGD)は、ディープニューラルネットワークと生成モデルのトレーニングに広く使用されている。
本稿では,勾配関数に対するバイアスの影響を包括的に分析する。
論文 参考訳(メタデータ) (2024-02-05T10:17:36Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。