論文の概要: Better Estimation of the KL Divergence Between Language Models
- arxiv url: http://arxiv.org/abs/2504.10637v1
- Date: Mon, 14 Apr 2025 18:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:20.966483
- Title: Better Estimation of the KL Divergence Between Language Models
- Title(参考訳): 言語モデル間のKLの多様性のより良い推定法
- Authors: Afra Amini, Tim Vieira, Ryan Cotterell,
- Abstract要約: Kullback-Leibler (KL) の言語モデル間のばらつきを推定することは、多くの応用がある。
また, 標準モンテカルロ推定器の偏差が, 標準モンテカルロ推定器の偏差以下であるようなラオ-ブラックウェル化推定器を導入する。
- 参考スコア(独自算出の注目度): 58.7977683502207
- License:
- Abstract: Estimating the Kullback--Leibler (KL) divergence between language models has many applications, e.g., reinforcement learning from human feedback (RLHF), interpretability, and knowledge distillation. However, computing the exact KL divergence between two arbitrary language models is intractable. Thus, practitioners often resort to the use of sampling-based estimators. While it is easy to fashion a simple Monte Carlo (MC) estimator that provides an unbiased estimate of the KL divergence between language models, this estimator notoriously suffers from high variance, and can even result in a negative estimate of the KL divergence, a non-negative quantity. In this paper, we introduce a Rao--Blackwellized estimator that is also unbiased and provably has variance less than or equal to that of the standard Monte Carlo estimator. In an empirical study on sentiment-controlled fine-tuning, we show that our estimator provides more stable KL estimates and reduces variance substantially in practice. Additionally, we derive an analogous Rao--Blackwellized estimator of the gradient of the KL divergence, which leads to more stable training and produces models that more frequently appear on the Pareto frontier of reward vs. KL compared to the ones trained with the MC estimator of the gradient.
- Abstract(参考訳): Kullback-Leibler (KL) の言語モデル間の差異を推定するには、例えば、人間のフィードバックからの強化学習(RLHF)、解釈可能性、知識蒸留など、多くの応用がある。
しかし、2つの任意の言語モデル間の正確なKL分散を計算することは困難である。
したがって、実践者はサンプリングベースの推定器を使うことが多い。
単純なモンテカルロ (MC) 推定器は言語モデル間のKLの偏差をバイアスなく見積もるが、この推定器は高い分散に悩まされ、非負の量であるKLの偏差を負の見積もることができる。
本稿では, 標準モンテカルロ推定器の偏差が, 標準モンテカルロ推定器の偏差以下であるようなラオ-ブラックウェル化推定器を提案する。
感情制御による微調整に関する実証的研究において、我々の推定器はより安定なKL推定を提供し、実際の分散を大幅に低減することを示した。
さらに、KLの勾配のラオ-ブラックウェル化推定器を導出し、より安定したトレーニングを行い、MCの勾配推定器で訓練したモデルと比較して、報酬のパレートフロンティアに頻繁に現れるモデルを生成する。
関連論文リスト
- Sequential Monte Carlo for Inclusive KL Minimization in Amortized Variational Inference [3.126959812401426]
SMC-Wakeは,モンテカルロの連続検層を用いて包摂的KL偏差の勾配を推定する補正式である。
シミュレーションと実データの両方を用いた実験では、SMC-Wakeは既存の手法よりも後方を正確に近似する変動分布に適合する。
論文 参考訳(メタデータ) (2024-03-15T18:13:48Z) - Nearest Neighbour Score Estimators for Diffusion Generative Models [16.189734871742743]
トレーニングセットから複数のサンプルを抽出し,推定値の分散を劇的に低減する新しい近傍スコア関数推定器を提案する。
拡散モデルでは,確率フローODE統合のための学習ネットワークを推定器で置き換えることができ,将来的な研究の新たな道が開かれる。
論文 参考訳(メタデータ) (2024-02-12T19:27:30Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z) - Causal KL: Evaluating Causal Discovery [0.0]
人工データを用いて因果モデル発見を評価するための最も一般的な基準は、編集距離とクルバック・リーブラー分岐である。
どちらも、偽モデルの相対的なメリットを判断する上で、十分に差別化されていないと論じる。
本稿では、観測等価モデル間の因果関係を考慮に入れた拡張KL発散法を提案する。
論文 参考訳(メタデータ) (2021-11-11T02:46:53Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient
Estimator [93.05919133288161]
一般的なGumbel-Softmax推定器のストレートスルー変量の分散は、ラオ・ブラックウェル化により減少できることを示す。
これは平均二乗誤差を確実に減少させる。
これは分散の低減、収束の高速化、および2つの教師なし潜在変数モデルの性能向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-09T22:54:38Z) - Nonparametric Estimation of the Fisher Information and Its Applications [82.00720226775964]
本稿では,大きさn$のランダムサンプルからフィッシャー情報の位置推定の問題について考察する。
Bhattacharyaにより提案された推定器を再検討し、収束率の向上を導出する。
クリッピング推定器と呼ばれる新しい推定器を提案する。
論文 参考訳(メタデータ) (2020-05-07T17:21:56Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。