論文の概要: Best-of-N through the Smoothing Lens: KL Divergence and Regret Analysis
- arxiv url: http://arxiv.org/abs/2507.05913v1
- Date: Tue, 08 Jul 2025 11:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.956677
- Title: Best-of-N through the Smoothing Lens: KL Divergence and Regret Analysis
- Title(参考訳): Smoothing LensによるBest-of-N:KLの多様性と回帰分析
- Authors: Gholamali Aminian, Idan Shenfeld, Amir R. Asadi, Ahmad Beirami, Youssef Mroueh,
- Abstract要約: Best-of-N$ (BoN) は生成モデルの推論時間アライメントの方法である。
我々はSoft Best-of-N(SBoN)と呼ばれるスムーズなバージョンを通してBoNを研究する。
理論的および実証的な結果から,SBoNのスムース化は報酬過小評価を緩和することが明らかとなった。
- 参考スコア(独自算出の注目度): 23.76662251965668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A simple yet effective method for inference-time alignment of generative models is Best-of-$N$ (BoN), where $N$ outcomes are sampled from a reference policy, evaluated using a proxy reward model, and the highest-scoring one is selected. While prior work argues that BoN is almost optimal in reward vs KL tradeoffs, the effectiveness of BoN depends critically on the quality of the proxy reward model used for selection. For this purpose, we study BoN through a smooth version known as Soft Best-of-N (SBoN) and develop a theoretical framework to address this gap. We analyze the scaling behaviour of BoN by providing bounds on the KL divergence between the SBoN policy and the reference policy, offering insights into how performance varies with the number of samples. We also study the regret gap, i.e., the gap between the expected true reward under the optimal policy and the SBoN policy. Our theoretical and empirical findings show that smoothing helps SBoN mitigate reward overoptimization, especially when the quality of the proxy reward is low.
- Abstract(参考訳): 生成モデルの推論時間アライメントをシンプルかつ効果的に行う方法はBest-of-N$ (BoN) であり、参照ポリシーから$N$の結果をサンプリングし、プロキシ報酬モデルを用いて評価し、最高スコアモデルを選択する。
以前の研究は、BoNは報酬対KLトレードオフにおいてほぼ最適であると主張しているが、BoNの有効性は選択に使用されるプロキシ報酬モデルの品質に大きく依存している。
この目的のために,Soft Best-of-N(SBoN)と呼ばれるスムーズなバージョンを用いてBoNを研究し,このギャップに対処するための理論的枠組みを開発する。
我々は,SBoNポリシと参照ポリシのKL分散のバウンダリを提供することで,BoNのスケーリング挙動を解析し,サンプル数に応じてパフォーマンスがどのように変化するかの洞察を与える。
また、最適政策下での真報酬とSBoN政策の相違について、後悔の相違、すなわち、期待される真報酬の相違についても検討する。
理論的および実証的な結果から,SBoNのスムース化は,特に代行報酬の質が低い場合に,報酬過多を緩和することが示された。
関連論文リスト
- Evaluation of Best-of-N Sampling Strategies for Language Model Alignment [6.4706370001155955]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好とLLM(Large Language Models)を整合させる効果的な戦略であることが示されている。
従来の研究は、目的に対して正規化したBoNサンプリングである正規化BoNサンプリング(RBoN)を提案し、BoNサンプリングよりも優れていることを示した。
本稿では、最悪のRBoNプロキシ報酬に対する理論的に保証されたアプローチであるRBoNサンプリング(SRBoN)と呼ばれるRBoNフレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2025-02-18T09:18:02Z) - Variational Best-of-N Alignment [57.617866305771756]
Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。
我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
論文 参考訳(メタデータ) (2024-07-08T15:59:44Z) - Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment [7.349727826230864]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好に合わせてLLM(Large Language Models)を調整するための効果的な戦略であることが示されている。
報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を過度に最適化することは、真の目的に対するパフォーマンスを損なう可能性がある。
本稿では,最小ベイズリスク(MBR)目標を近接正規化項として組み込むことで,推論時の報酬ハッキングを緩和することを目的としたBoNの変種を提案する。
論文 参考訳(メタデータ) (2024-04-01T11:26:50Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
そこで本研究では,KLの発散に対する新しい推定器を提案し,その近似が厳密であることを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。