論文の概要: Soft Best-of-n Sampling for Model Alignment
- arxiv url: http://arxiv.org/abs/2505.03156v1
- Date: Tue, 06 May 2025 04:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.198002
- Title: Soft Best-of-n Sampling for Model Alignment
- Title(参考訳): モデルアライメントのためのソフトBest-of-nサンプリング
- Authors: Claudio Mayrink Verdun, Alex Oesterling, Himabindu Lakkaraju, Flavio P. Calmon,
- Abstract要約: Best-of-n$のサンプリングは、言語モデルの出力を人間の好みに合わせるための実践的なアプローチである。
我々は,初期分布と報酬最大化分布のスムーズな一般化を可能にするソフト・ベスト・オブ・n$サンプリングを導入する。
離散的な出力の列に対して、ブロックワイズサンプリングの基本的限界を明らかにする付加的な報酬モデルを分析する。
- 参考スコア(独自算出の注目度): 19.80655819384635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Best-of-$n$ (BoN) sampling is a practical approach for aligning language model outputs with human preferences without expensive fine-tuning. BoN sampling is performed by generating $n$ responses to a prompt and then selecting the sample that maximizes a reward function. BoN yields high reward values in practice at a distortion cost, as measured by the KL-divergence between the sampled and original distribution. This distortion is coarsely controlled by varying the number of samples: larger $n$ yields a higher reward at a higher distortion cost. We introduce Soft Best-of-$n$ sampling, a generalization of BoN that allows for smooth interpolation between the original distribution and reward-maximizing distribution through a temperature parameter $\lambda$. We establish theoretical guarantees showing that Soft Best-of-$n$ sampling converges sharply to the optimal tilted distribution at a rate of $O(1/n)$ in KL and the expected (relative) reward. For sequences of discrete outputs, we analyze an additive reward model that reveals the fundamental limitations of blockwise sampling.
- Abstract(参考訳): Best-of-n$ (BoN) サンプリングは、高価な微調整なしで言語モデルの出力を人間の好みに合わせるための実践的なアプローチである。
BoNサンプリングは、プロンプトに対する$n$応答を生成し、報酬関数を最大化するサンプルを選択することで実行される。
BoNは、サンプルと元の分布の間のKL偏差によって測定されるように、歪みコストで実際に高い報酬値を得る。
この歪みはサンプルの数を変えることで粗く制御される:より大きい$n$は、より高い歪みコストでより高い報酬を得る。
温度パラメータ$\lambda$ を用いて、元の分布と報酬最大化分布の円滑な補間を可能にする BoN の一般化である Soft Best-of-n$ サンプリングを導入する。
我々は,KL における O(1/n)$ の速度と(相対的な)報酬が最適傾き分布に鋭く収束することを示す理論的保証を確立する。
離散的な出力の列に対して、ブロックワイズサンプリングの基本的限界を明らかにする付加的な報酬モデルを分析する。
関連論文リスト
- Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。
実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。
サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文 参考訳(メタデータ) (2025-02-24T04:22:57Z) - Diffusion at Absolute Zero: Langevin Sampling Using Successive Moreau Envelopes [conference paper] [52.69179872700035]
本稿では,$pi(x)proptoexp(-U(x))$という形のGibbs分布から,潜在的に$U(x)$でサンプリングする方法を提案する。
拡散モデルに着想を得て、ターゲット密度の近似の列 $(pit_k)_k$ を考えることを提案し、そこで$pit_kapprox pi$ for $k$ small に対して $pit_k$ は、$k$のサンプリングに好適な性質を示す。
論文 参考訳(メタデータ) (2025-02-03T13:50:57Z) - BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling [16.38043428743923]
本稿では,大言語モデルからのサンプルを,ベスト・オブ・nドルサンプリングを用いてヒトの嗜好に合わせることの問題点について述べる。
基本モデルからKL距離に対する勝利率とのトレードオフの観点から,n$の最高値が本質的に最適であることを示す。
実験により,BoNBoNアライメントは基本方針に好適なモデルの生成において,大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2024-06-02T18:42:57Z) - Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。
提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。
第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T11:52:41Z) - Towards Sample-Optimal Compressive Phase Retrieval with Sparse and
Generative Priors [59.33977545294148]
O(k log L)$サンプルは振幅に基づく経験損失関数を最小化する任意のベクトルに信号が近いことを保証するのに十分であることを示す。
この結果はスパース位相検索に適応し、基底信号が$s$-sparseおよび$n$-dimensionalである場合、$O(s log n)$サンプルは同様の保証に十分であることを示す。
論文 参考訳(メタデータ) (2021-06-29T12:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。