論文の概要: Theoretical Limits of Language Model Alignment
- arxiv url: http://arxiv.org/abs/2605.07105v1
- Date: Fri, 08 May 2026 01:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.720627
- Title: Theoretical Limits of Language Model Alignment
- Title(参考訳): 言語モデルアライメントの理論的限界
- Authors: Lucas Monteiro Paes, Natalie Mackraz, Barry-John Theobald, Federico Danieli,
- Abstract要約: 言語モデル(LM)アライメントは、ベースモデルの能力を保ちながら、人間の好みを反映するモデル出力を改善する。
最も一般的なアライメントアプローチは、(i)強化学習であり、KL分割制約の下で期待される報酬を最大化する。
固定KL分割予算に対する最大期待報酬利得を導出することにより、KL正規化アライメントの情報理論的限界を特徴づける。
- 参考スコア(独自算出の注目度): 9.45142272392467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model (LM) alignment improves model outputs to reflect human preferences while preserving the capabilities of the base model. The most common alignment approaches are (i) reinforcement learning, which maximizes the expected reward under a KL-divergence constraint, and (ii) best-of-$N$ alignment, which selects the highest-reward output among $N$ independent samples. Despite their widespread use, the fundamental limits of reward improvement under a KL budget remain poorly understood. We characterize the information-theoretic limits of KL-regularized alignment by deriving the maximum achievable expected reward gain for a fixed KL-divergence budget. Our first result provides a closed-form expression for the optimal reward improvement, governed by a Jeffreys divergence term rather than the $\sqrt{\texttt{KL}}$ used in prior analyses. We further reformulate this expression as a covariance under the base model, yielding a practical estimator that predicts achievable alignment gains from base model samples alone. We extend our analysis to the proxy reward setting, showing that the gap between ideal and proxy alignment (reward hacking) grows with the magnitude of reward error and when the KL penalty factor decreases. We then prove that reward ensembling mitigates reward hacking, providing a theoretical justification for this technique used in practice. Empirically, we compute the KL-reward Pareto frontier for two tasks for LMs, safety and summarization, and show that best-of-$N$ closely approaches the theoretical limit, while PPO and GRPO remain substantially suboptimal. Our theoretical results shed light on several empirically observed phenomena in the alignment literature and suggest that algorithmic improvements are needed to achieve optimal alignment without high inference costs.
- Abstract(参考訳): 言語モデル(LM)アライメントは、ベースモデルの能力を保ちながら、人間の好みを反映するモデル出力を改善する。
最も一般的なアライメントアプローチは
i)KL分割制約の下で期待される報酬を最大化する強化学習、及び
(ii)$N$のアライメントは$N$の独立なサンプルの中で最も高い逆出力を選択する。
広く使われているにもかかわらず、KL予算の下での報酬改善の基本的な限界は理解されていない。
固定KL分割予算に対する最大期待報酬利得を導出することにより、KL正規化アライメントの情報理論的限界を特徴づける。
最初の結果は、事前解析で使われる$\sqrt{\texttt{KL}}$ではなく、ジェフリーズ発散項によって支配される最適報酬改善のためのクローズドフォーム表現を提供する。
さらに、この表現をベースモデルに基づく共分散として再構成し、ベースモデル単体で達成可能なアライメントゲインを予測する実用的な推定値を得る。
分析結果をプロキシ報酬設定に拡張し、理想とプロキシアライメント(リワードハッキング)のギャップは報酬誤差の程度とKLペナルティ係数の減少とともに増大することを示した。
そして、報酬のアンサンブルが報酬のハッキングを軽減し、実際に使用されるこのテクニックの理論的正当性を証明した。
実験的に、LMの安全性と要約の2つのタスクに対してKL-reward Paretoフロンティアを計算し、PPOとGRPOが実質的に準最適であるのに対して、N$のベスト・オブ・N$が理論上の限界に近づいたことを示す。
理論的には、アライメントの文献で観測されたいくつかの現象に光を当て、高い推論コストを伴わずに最適なアライメントを実現するためにアルゴリズムの改善が必要であることを示唆している。
関連論文リスト
- A Principled Loss Function for Direct Language Model Alignment [0.0]
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
論文 参考訳(メタデータ) (2025-08-10T01:56:58Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Asymptotics of Language Model Alignment [27.37118975691123]
最適KL制約RL解が大きな偏差原理を満たすことを示す。
また、報酬のスケールした累積物の成長速度は、適切なレニイクロスエントロピーによって特徴づけられることを示した。
論文 参考訳(メタデータ) (2024-04-02T08:40:07Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
そこで本研究では,KLの発散に対する新しい推定器を提案し,その近似が厳密であることを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。