論文の概要: A Theoretical Lens for RL-Tuned Language Models via Energy-Based Models
- arxiv url: http://arxiv.org/abs/2512.18730v1
- Date: Sun, 21 Dec 2025 13:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.476224
- Title: A Theoretical Lens for RL-Tuned Language Models via Energy-Based Models
- Title(参考訳): エネルギーモデルを用いたRL可変言語モデルの理論レンズ
- Authors: Zhiquan Tan, Yinrong Hong,
- Abstract要約: KL正規化強化学習によって訓練された大規模言語モデル(LLM)は、強い指示、自己補正、推論能力を示す。
我々は、最適KL規則化ポリシの閉形式エネルギーベースモデル(EBM)構造を利用して、LLMの統一的変分解析を行う。
- 参考スコア(独自算出の注目度): 9.324642081509756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) trained via KL-regularized reinforcement learning demonstrate strong instruction following, self-correction, and reasoning abilities. Yet their theoretical underpinnings remain limited. We exploit the closed-form energy-based model (EBM) structure of the optimal KL-regularized policy to provide a unified variational analysis of LLMs. For instruction-tuned models, under natural assumptions on reward potentials and pretraining symmetry, we prove that the transition kernel satisfies detailed balance with respect to a scalar potential encoding response quality. This yields monotonic KL convergence to a high-quality stationary distribution, bounded hitting times to superior states, and exponential mixing governed by the spectral gap. For reasoning models trained with verifiable rewards (RLVR), we show the objective is equivalent to expected KL minimization toward an optimal reasoning distribution, with the suboptimality gap reducing to the Bernoulli KL between target and current accuracies along the natural gradient flow. This helps explain empirical entropy-accuracy trade-offs.
- Abstract(参考訳): KL正規化強化学習によって訓練された大規模言語モデル(LLM)は、強い指示、自己補正、推論能力を示す。
しかし、理論上の根拠は限られている。
我々は、最適KL規則化ポリシの閉形式エネルギーベースモデル(EBM)構造を利用して、LLMの統一的変分解析を行う。
命令調整モデルでは、報酬ポテンシャルと事前学習対称性の自然な仮定の下で、遷移核がスカラーポテンシャル符号化応答品質に関する詳細なバランスを満たすことが証明される。
これにより、単調なKL収束は高品質な定常分布に収束し、打点時間を上位状態に制限し、スペクトルギャップによって支配される指数混合を与える。
検証可能な報酬 (RLVR) で訓練された推論モデルについて, 最適推論分布に対する予測KL最小化と等価であることを示す。
これは経験的エントロピー精度のトレードオフを説明するのに役立つ。
関連論文リスト
- Variational Reasoning for Language Models [93.08197299751197]
本稿では,思考トレースを潜在変数として扱う言語モデルのための変分推論フレームワークを提案する。
GRPOを含むリジェクションサンプリングとバイナリリワードRLは局所的なフォワードKLの目的と解釈できることを示す。
論文 参考訳(メタデータ) (2025-09-26T17:58:10Z) - Kolmogorov-Arnold Energy Models: Fast and Interpretable Generative Modeling [0.0]
構造的および帰納的バイアスを利用するために,Kolmogorov-Arnold Energy Model (KAEM)を導入する。
KAEMは一般的な生成モデリングトレードオフのバランスをとり、高速な推論、解釈可能性、安定したトレーニングを提供する。
論文 参考訳(メタデータ) (2025-06-17T04:07:32Z) - Alignment as Distribution Learning: Your Preference Model is Explicitly a Language Model [12.063078727764045]
人間のフィードバックからの強化学習によるアライメントは理論的正当性に欠け、決定論的解のインセンティブを与える。
本稿では, 優先最大推定, 優先蒸留, 逆KL最小化の3つの基本学習目標を提案する。
我々は、我々の分布学習フレームワーク、特に嗜好蒸留が、RLHFとDPOのパフォーマンスを一貫して上回るか、あるいは一致しているかを実証的に示す。
論文 参考訳(メタデータ) (2025-06-02T10:36:31Z) - A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective [8.15094483029656]
拡散モデルは並列トークンサンプリングを可能にし、より高速な生成と左から右への生成制約を排除する。
我々は情報理論の観点から拡散言語モデルの収束保証を開発する。
これらの結果は拡散言語モデルの実用性に関する新たな理論的洞察を与える。
論文 参考訳(メタデータ) (2025-05-27T16:24:20Z) - Overcoming Dimensional Factorization Limits in Discrete Diffusion Models through Quantum Joint Distribution Learning [79.65014491424151]
量子離散化拡散確率モデル(QD3PM)を提案する。
これは、指数関数的に大きなヒルベルト空間における拡散と denoising を通じて合同確率学習を可能にする。
本稿では,共同分布学習における量子的優位性を生かして,生成モデルの新たな理論的パラダイムを確立する。
論文 参考訳(メタデータ) (2025-05-08T11:48:21Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Training Deep Energy-Based Models with f-Divergence Minimization [113.97274898282343]
深部エネルギーベースモデル(EBM)は分布パラメトリゼーションにおいて非常に柔軟であるが、計算的に困難である。
所望のf偏差を用いてEMMを訓練するための、f-EBMと呼ばれる一般的な変分フレームワークを提案する。
実験の結果,F-EBMは対照的なばらつきよりも優れており,KL以外のf-divergencesを用いたEBMの訓練の利点も示された。
論文 参考訳(メタデータ) (2020-03-06T23:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。