論文の概要: Exponential families from a single KL identity
- arxiv url: http://arxiv.org/abs/2604.28036v1
- Date: Thu, 30 Apr 2026 15:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.17806
- Title: Exponential families from a single KL identity
- Title(参考訳): 単一KL単位からの指数族
- Authors: Marc Dymetman,
- Abstract要約: 指数族は、ソフトマックス、ガウス、ボルツマン分布など、現代の機械学習の中心となる分布を含んでいる。
KL 差 $mathrmKL(q | p_|)$ を対数分割関数 $A()$ とモーメント $_q$ で表す指数族に対する単純な恒等式を分離する。
注目すべきことに、この同一性は、$mathrmKL geq 0$ suffices が直接置換と再配置によって古典的に得られる結果の集合を導出する唯一の事実と一致している。
- 参考スコア(独自算出の注目度): 7.106986689736826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exponential families encompass the distributions central to modern machine learning -- softmax, Gaussians, and Boltzmann distributions -- and underlie the theory of variational inference, entropy-regularized reinforcement learning, and RLHF. We isolate a simple identity for exponential families that expresses the KL difference $\mathrm{KL}(q \| p_{λ_2}) - \mathrm{KL}(q \| p_{λ_1})$ in terms of the log-partition function $A(λ)$ and the moment $μ_q$. Remarkably, this identity together with the single fact that $\mathrm{KL} \geq 0$ (with equality iff $p = q$) suffices, by direct substitution and rearrangement, to derive a cluster of results that are classically obtained by separate, heavier arguments: a generalized three-point identity for arbitrary reference distributions, Pythagorean theorems for I-projections and reverse I-projections, convexity of the log-partition function, identification of its Legendre dual in KL terms, the Gibbs variational principle, and the explicit optimizer in KL-regularized reward maximization, including the exponential tilting formula underlying entropy-regularized control and RLHF. Beyond these purely algebraic consequences, standard analytic arguments recover the gradient formula for the log-partition function, the Bregman representation of within-family KL divergence, and the surjectivity of the moment map. The note is self-contained.
- Abstract(参考訳): 指数族は、現代の機械学習の中心となる分布(ソフトマックス、ガウス、ボルツマン分布)を含み、変分推論、エントロピー規則化された強化学習、RLHFの理論の根底にある。
KL 差を表わす指数族に対する単純な恒等式 $\mathrm{KL}(q \| p_{λ_2}) - \mathrm{KL}(q \| p_{λ_1})$ を、対数分割関数 $A(λ)$ とモーメント $μ_q$ の項で分離する。
注目すべきことに、この同一性は、直接置換と再配置により、任意の参照分布に対する一般化された3点の恒等式、I-射影と逆I-射影に対するピタゴラスの定理、対数分割関数の凸性、KL項におけるレジェンダレ双対の識別、KL項の変分原理、KL-正則化された報酬極大化の指数関数を含む、古典的により重い議論によって得られる結果のクラスタを導出するのに、$\mathrm{KL} \geq 0$ (with equality iff $p = q$) という単項の事実と一致している。
これらの純粋に代数的な結果の他に、標準的な解析的議論は対数分割関数の勾配公式、家族内KL発散のブレグマン表現、モーメント写像の全射性(英語版)を復元する。
メモは自己完結している。
関連論文リスト
- Optimal Stability of KL Divergence under Gaussian Perturbations [30.190488055856207]
KL の発散に対する既存の緩和三角形の不等式は、すべての関連する分布がガウス分布であるという仮定に批判的に依存する。
穏やかなモーメント条件下で任意の分布とガウス族の間の鋭い安定性を確立する。
この$sqrt$レートは一般にガウス族の中でも最適であることを示す。
論文 参考訳(メタデータ) (2026-04-13T05:49:59Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文 参考訳(メタデータ) (2025-02-11T11:11:05Z) - Asymptotics of Language Model Alignment [27.37118975691123]
最適KL制約RL解が大きな偏差原理を満たすことを示す。
また、報酬のスケールした累積物の成長速度は、適切なレニイクロスエントロピーによって特徴づけられることを示した。
論文 参考訳(メタデータ) (2024-04-02T08:40:07Z) - Optimal Bounds between $f$-Divergences and Integral Probability Metrics [8.401473551081748]
確率分布の類似性を定量化するために、$f$-divergencesとIntegral Probability Metricsが広く使われている。
両家系の関係を凸双対性の観点から体系的に研究する。
我々は、Hoeffdingの補題のような統一的な方法でよく知られた結果を回復しながら、新しい境界を得る。
論文 参考訳(メタデータ) (2020-06-10T17:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。