論文の概要: KL-Regularized Reinforcement Learning is Designed to Mode Collapse
- arxiv url: http://arxiv.org/abs/2510.20817v1
- Date: Thu, 23 Oct 2025 17:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.546897
- Title: KL-Regularized Reinforcement Learning is Designed to Mode Collapse
- Title(参考訳): KL-regularized Reinforcement Learning is designed to Mode Collapse
- Authors: Anthony GX-Chen, Jatin Prakash, Jeff Guo, Rob Fergus, Rajesh Ranganath,
- Abstract要約: ここでは,KLの逆方向選択が最適対象分布の族を決定することを示す。
これらの洞察を利用して、単純でスケーラブルで理論的に正当化されたアルゴリズムを構築します。
- 参考スコア(独自算出の注目度): 29.23421728376746
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: It is commonly believed that optimizing the reverse KL divergence results in "mode seeking", while optimizing forward KL results in "mass covering", with the latter being preferred if the goal is to sample from multiple diverse modes. We show -- mathematically and empirically -- that this intuition does not necessarily transfer well to doing reinforcement learning with reverse/forward KL regularization (e.g. as commonly used with language models). Instead, the choice of reverse/forward KL determines the family of optimal target distributions, parameterized by the regularization coefficient. Mode coverage depends primarily on other factors, such as regularization strength, and relative scales between rewards and reference probabilities. Further, we show commonly used settings such as low regularization strength and equal verifiable rewards tend to specify unimodal target distributions, meaning the optimization objective is, by construction, non-diverse. We leverage these insights to construct a simple, scalable, and theoretically justified algorithm. It makes minimal changes to reward magnitudes, yet optimizes for a target distribution which puts high probability over all high-quality sampling modes. In experiments, this simple modification works to post-train both Large Language Models and Chemical Language Models to have higher solution quality and diversity, without any external signals of diversity, and works with both forward and reverse KL when using either naively fails.
- Abstract(参考訳): 一般的に、逆KLの発散の最適化は「モード探索」をもたらすが、前方KLの最適化は「質量被覆」をもたらすと信じられている。
数学的にも経験的にも、この直観は必ずしも逆/前方のKL正規化(例えば言語モデルでよく使われるような)による強化学習にうまく移行しないことを示す。
代わりに、逆/前方KLの選択は正規化係数によってパラメータ化される最適目標分布の族を決定する。
モードカバレッジは、主に正規化強度や報酬と参照確率の間の相対スケールなど、他の要因に依存する。
さらに, 正規化強度が低いこと, 検証可能な報酬が等しいこと, 最適化の目的は, 構成上は非多変数である,といったような一般的な設定を示す。
これらの洞察を利用して、単純でスケーラブルで理論的に正当化されたアルゴリズムを構築します。
報酬の規模に最小限の変更を加えるが、全ての高品質サンプリングモードに対して高い確率を与えるターゲット分布を最適化する。
実験では、この単純な修正は、大きな言語モデルと化学言語モデルの両方を訓練後、外部の多様性のシグナルを伴わずに、より高いソリューション品質と多様性を持つよう機能する。
関連論文リスト
- FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Maximum Likelihood Estimation is All You Need for Well-Specified
Covariate Shift [34.414261291690856]
現代の機械学習システムの鍵となる課題は、アウト・オブ・ディストリビューション(OOD)の一般化を達成することである。
音源データを用いた古典的最大等化推定(MLE)が極小最適化を実現することを示す。
3つの具体例にインスタンス化することで、フレームワークの幅広い適用性を説明します。
論文 参考訳(メタデータ) (2023-11-27T16:06:48Z) - Aligning Language Models with Preferences through f-divergence
Minimization [4.952674870169772]
f-DPGは、評価可能な任意のターゲット分布を近似するために、任意のf分割を使用することができる。
本稿では,Jensen-Shannon発散がこれらの目的のバランスを良好に保ち,KL発散を広いマージンで上回っていることを示す。
論文 参考訳(メタデータ) (2023-02-16T10:59:39Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Markovian Score Climbing: Variational Inference with KL(p||q) [16.661889249333676]
我々は「排他的クルバック・リーブラ」(KL)KL(p q)を確実に最小化する簡単なアルゴリズムを開発する。
この方法は包含KLの局所最適化に収束する。
Reweighted Wake-Sleep(英語版)やNeural Adaptive Monte Carlo(英語版)のような既存の手法に固有の体系的な誤りに悩まされない。
論文 参考訳(メタデータ) (2020-03-23T16:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。