論文の概要: Best-of-N through the Smoothing Lens: KL Divergence and Regret Analysis
- arxiv url: http://arxiv.org/abs/2507.05913v1
- Date: Tue, 08 Jul 2025 11:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.956677
- Title: Best-of-N through the Smoothing Lens: KL Divergence and Regret Analysis
- Title(参考訳): Smoothing LensによるBest-of-N:KLの多様性と回帰分析
- Authors: Gholamali Aminian, Idan Shenfeld, Amir R. Asadi, Ahmad Beirami, Youssef Mroueh,
- Abstract要約: Best-of-N$ (BoN) は生成モデルの推論時間アライメントの方法である。
我々はSoft Best-of-N(SBoN)と呼ばれるスムーズなバージョンを通してBoNを研究する。
理論的および実証的な結果から,SBoNのスムース化は報酬過小評価を緩和することが明らかとなった。
- 参考スコア(独自算出の注目度): 23.76662251965668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A simple yet effective method for inference-time alignment of generative models is Best-of-$N$ (BoN), where $N$ outcomes are sampled from a reference policy, evaluated using a proxy reward model, and the highest-scoring one is selected. While prior work argues that BoN is almost optimal in reward vs KL tradeoffs, the effectiveness of BoN depends critically on the quality of the proxy reward model used for selection. For this purpose, we study BoN through a smooth version known as Soft Best-of-N (SBoN) and develop a theoretical framework to address this gap. We analyze the scaling behaviour of BoN by providing bounds on the KL divergence between the SBoN policy and the reference policy, offering insights into how performance varies with the number of samples. We also study the regret gap, i.e., the gap between the expected true reward under the optimal policy and the SBoN policy. Our theoretical and empirical findings show that smoothing helps SBoN mitigate reward overoptimization, especially when the quality of the proxy reward is low.
- Abstract(参考訳): 生成モデルの推論時間アライメントをシンプルかつ効果的に行う方法はBest-of-N$ (BoN) であり、参照ポリシーから$N$の結果をサンプリングし、プロキシ報酬モデルを用いて評価し、最高スコアモデルを選択する。
以前の研究は、BoNは報酬対KLトレードオフにおいてほぼ最適であると主張しているが、BoNの有効性は選択に使用されるプロキシ報酬モデルの品質に大きく依存している。
この目的のために,Soft Best-of-N(SBoN)と呼ばれるスムーズなバージョンを用いてBoNを研究し,このギャップに対処するための理論的枠組みを開発する。
我々は,SBoNポリシと参照ポリシのKL分散のバウンダリを提供することで,BoNのスケーリング挙動を解析し,サンプル数に応じてパフォーマンスがどのように変化するかの洞察を与える。
また、最適政策下での真報酬とSBoN政策の相違について、後悔の相違、すなわち、期待される真報酬の相違についても検討する。
理論的および実証的な結果から,SBoNのスムース化は,特に代行報酬の質が低い場合に,報酬過多を緩和することが示された。
関連論文リスト
- Soft Best-of-n Sampling for Model Alignment [19.80655819384635]
Best-of-n$のサンプリングは、言語モデルの出力を人間の好みに合わせるための実践的なアプローチである。
我々は,初期分布と報酬最大化分布のスムーズな一般化を可能にするソフト・ベスト・オブ・n$サンプリングを導入する。
離散的な出力の列に対して、ブロックワイズサンプリングの基本的限界を明らかにする付加的な報酬モデルを分析する。
論文 参考訳(メタデータ) (2025-05-06T04:03:11Z) - Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。
我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。
我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-27T18:00:08Z) - Evaluation of Best-of-N Sampling Strategies for Language Model Alignment [6.4706370001155955]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好とLLM(Large Language Models)を整合させる効果的な戦略であることが示されている。
従来の研究は、目的に対して正規化したBoNサンプリングである正規化BoNサンプリング(RBoN)を提案し、BoNサンプリングよりも優れていることを示した。
本稿では、最悪のRBoNプロキシ報酬に対する理論的に保証されたアプローチであるRBoNサンプリング(SRBoN)と呼ばれるRBoNフレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2025-02-18T09:18:02Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Variational Best-of-N Alignment [57.617866305771756]
Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。
我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
論文 参考訳(メタデータ) (2024-07-08T15:59:44Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment [7.349727826230864]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好に合わせてLLM(Large Language Models)を調整するための効果的な戦略であることが示されている。
報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を過度に最適化することは、真の目的に対するパフォーマンスを損なう可能性がある。
本稿では,最小ベイズリスク(MBR)目標を近接正規化項として組み込むことで,推論時の報酬ハッキングを緩和することを目的としたBoNの変種を提案する。
論文 参考訳(メタデータ) (2024-04-01T11:26:50Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
そこで本研究では,KLの発散に対する新しい推定器を提案し,その近似が厳密であることを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Thompson Exploration with Best Challenger Rule in Best Arm Identification [59.02170783023547]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。