論文の概要: On a few pitfalls in KL divergence gradient estimation for RL
- arxiv url: http://arxiv.org/abs/2506.09477v1
- Date: Wed, 11 Jun 2025 07:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.715081
- Title: On a few pitfalls in KL divergence gradient estimation for RL
- Title(参考訳): KL分散勾配推定におけるいくつかの落とし穴について
- Authors: Yunhao Tang, Rémi Munos,
- Abstract要約: LLMのRLトレーニングにおいて,KL偏差の勾配推定を実装する際の落とし穴がいくつか指摘されている。
最初の大きな落とし穴は、KLの発散を最小限に抑える損失関数としてKLの推定を通じて区別することである。
このような実装は一般に誤りであり、所望のKL勾配を生成できないことを示す。
- 参考スコア(独自算出の注目度): 30.58345957501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We point out a few pitfalls in implementing gradient estimation for KL divergence in RL training for LLM, as seen in a number of open source projects and papers. The first major pitfall is to differentiate through the KL estimate as loss functions to minimize KL divergence. We show that such implementations are generally incorrect and do not produce the desired KL gradient. Secondly, we show that some implementations do not account for the sequential nature of the estimation problem and produce a partial gradient at best. We demonstrate the impact of such issues with illustrative tabular and LLM experiments, and show the correct way to implement the KL gradient.
- Abstract(参考訳): いくつかのオープンソースプロジェクトや論文に見られるように、LLMのRLトレーニングにおいて、KL分散のための勾配推定を実装する際の落とし穴がいくつか指摘されている。
最初の大きな落とし穴は、KLの発散を最小限に抑える損失関数としてKLの推定を通じて区別することである。
このような実装は一般に誤りであり、所望のKL勾配を生成できないことを示す。
第二に、いくつかの実装は、推定問題の逐次的な性質を考慮せず、極端に部分的な勾配を生じることを示す。
図表表およびLLM実験におけるそのような問題の影響を実証し、KL勾配の正しい実装方法を示す。
関連論文リスト
- On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [50.856589224454055]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
オンライン強化学習環境におけるKL正規化政策勾配法を導出・解析するためのフレームワークである正則化政策勾配(RPG)を提案する。
RPGは、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニングの安定性とパフォーマンスの面で改善あるいは競争力のある結果を示している。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - Better Estimation of the KL Divergence Between Language Models [58.7977683502207]
Kullback-Leibler (KL) の言語モデル間のばらつきを推定することは、多くの応用がある。
また, 標準モンテカルロ推定器の偏差が, 標準モンテカルロ推定器の偏差以下であるようなラオ-ブラックウェル化推定器を導入する。
論文 参考訳(メタデータ) (2025-04-14T18:40:02Z) - Generalized Kullback-Leibler Divergence Loss [105.66549870868971]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
DKL損失の非結合構造により,我々は改善すべき2つの領域を特定した。
論文 参考訳(メタデータ) (2025-03-11T04:43:33Z) - A Granger-Causal Perspective on Gradient Descent with Application to Pruning [2.8602509244926413]
本稿では,勾配降下の因果性について考察する。
勾配降下法は損失の減少とパラメータの変化との間に暗黙の粒径・因果関係があることが示される。
Pruning の応用による因果的アプローチの意義について述べる。
論文 参考訳(メタデータ) (2024-12-04T05:16:48Z) - Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models [18.870276152694245]
Kullback-Leiber分散は、Large Language Models (LLM) の圧縮に知識蒸留 (KD) で広く使われている。
以前のアサーションとは対照的に、逆クルバック・リブラー(英語版)(RKL)の発散はモード探索であり、したがって平均シーキング前方クルバック・リブラー(英語版)(FKL)の発散よりも好ましい。
本稿では,FKLとRKLを組み合わせるために重みを適応的に割り当てる,単純で効果的な適応型Kulback-Leiber(AKL)分散法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:40:17Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Understanding Gradient Clipping in Private SGD: A Geometric Perspective [68.61254575987013]
ディープラーニングモデルは、トレーニングデータが機密情報を含む可能性がある多くの機械学習アプリケーションで、ますます人気が高まっている。
多くの学習システムは、(異なる)プライベートSGDでモデルをトレーニングすることで、差分プライバシーを取り入れている。
各プライベートSGDアップデートにおける重要なステップは勾配クリッピングであり、L2ノルムがしきい値を超えると、個々の例の勾配を小さくする。
論文 参考訳(メタデータ) (2020-06-27T19:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。