Fugu-MT 論文翻訳(概要): Soft Best-of-n Sampling for Model Alignment

論文の概要: Soft Best-of-n Sampling for Model Alignment

arxiv url: http://arxiv.org/abs/2505.03156v1
Date: Tue, 06 May 2025 04:03:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:11.198002
Title: Soft Best-of-n Sampling for Model Alignment
Title（参考訳）: モデルアライメントのためのソフトBest-of-nサンプリング
Authors: Claudio Mayrink Verdun, Alex Oesterling, Himabindu Lakkaraju, Flavio P. Calmon,
Abstract要約: Best-of-n$のサンプリングは、言語モデルの出力を人間の好みに合わせるための実践的なアプローチである。我々は,初期分布と報酬最大化分布のスムーズな一般化を可能にするソフト・ベスト・オブ・n$サンプリングを導入する。離散的な出力の列に対して、ブロックワイズサンプリングの基本的限界を明らかにする付加的な報酬モデルを分析する。
参考スコア（独自算出の注目度）: 19.80655819384635
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Best-of-$n$ (BoN) sampling is a practical approach for aligning language model outputs with human preferences without expensive fine-tuning. BoN sampling is performed by generating $n$ responses to a prompt and then selecting the sample that maximizes a reward function. BoN yields high reward values in practice at a distortion cost, as measured by the KL-divergence between the sampled and original distribution. This distortion is coarsely controlled by varying the number of samples: larger $n$ yields a higher reward at a higher distortion cost. We introduce Soft Best-of-$n$ sampling, a generalization of BoN that allows for smooth interpolation between the original distribution and reward-maximizing distribution through a temperature parameter $\lambda$. We establish theoretical guarantees showing that Soft Best-of-$n$ sampling converges sharply to the optimal tilted distribution at a rate of $O(1/n)$ in KL and the expected (relative) reward. For sequences of discrete outputs, we analyze an additive reward model that reveals the fundamental limitations of blockwise sampling.
Abstract（参考訳）: Best-of-n$ (BoN) サンプリングは、高価な微調整なしで言語モデルの出力を人間の好みに合わせるための実践的なアプローチである。 BoNサンプリングは、プロンプトに対する$n$応答を生成し、報酬関数を最大化するサンプルを選択することで実行される。 BoNは、サンプルと元の分布の間のKL偏差によって測定されるように、歪みコストで実際に高い報酬値を得る。この歪みはサンプルの数を変えることで粗く制御される:より大きい$n$は、より高い歪みコストでより高い報酬を得る。温度パラメータ$\lambda$ を用いて、元の分布と報酬最大化分布の円滑な補間を可能にする BoN の一般化である Soft Best-of-n$ サンプリングを導入する。我々は,KL における O(1/n)$ の速度と(相対的な)報酬が最適傾き分布に鋭く収束することを示す理論的保証を確立する。離散的な出力の列に対して、ブロックワイズサンプリングの基本的限界を明らかにする付加的な報酬モデルを分析する。

関連論文リスト

Diffusion Tree Sampling: Scalable inference-time alignment of diffusion models [13.312007032203857]
事前訓練された拡散モデルを推論時に新しい目的に適応させることは、生成的モデリングにおいて未解決の問題である。そこで本研究では,終末報酬を拡散連鎖を通じて伝播させることにより,報奨目標密度から抽出するツリーベースアプローチを提案する。以前の世代からの情報を再利用することで、任意のアルゴリズムが追加の計算を着実により良いサンプルに変換する。
論文参考訳（メタデータ） (2025-06-25T17:59:10Z)
Contextual Learning for Stochastic Optimization [1.0819408603463425]
最適化によってモチベーションを得て,文脈値分布のサンプルから学習する問題を導入する。各サンプルは、コンテキスト$x$と、対応する実値分布$D_x$から引き出されたランダム変数からなる。
論文参考訳（メタデータ） (2025-05-22T16:01:49Z)
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文参考訳（メタデータ） (2025-02-24T04:22:57Z)
Diffusion at Absolute Zero: Langevin Sampling Using Successive Moreau Envelopes [conference paper] [52.69179872700035]
本稿では,$pi(x)proptoexp(-U(x))$という形のGibbs分布から,潜在的に$U(x)$でサンプリングする方法を提案する。拡散モデルに着想を得て、ターゲット密度の近似の列 $(pit_k)_k$ を考えることを提案し、そこで$pit_kapprox pi$ for $k$ small に対して $pit_k$ は、$k$のサンプリングに好適な性質を示す。
論文参考訳（メタデータ） (2025-02-03T13:50:57Z)
BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling [16.38043428743923]
本稿では,大言語モデルからのサンプルを,ベスト・オブ・nドルサンプリングを用いてヒトの嗜好に合わせることの問題点について述べる。基本モデルからKL距離に対する勝利率とのトレードオフの観点から,n$の最高値が本質的に最適であることを示す。実験により,BoNBoNアライメントは基本方針に好適なモデルの生成において,大幅な改善をもたらすことが示された。
論文参考訳（メタデータ） (2024-06-02T18:42:57Z)
Asymptotics of Language Model Alignment [27.37118975691123]
最適KL制約RL解が大きな偏差原理を満たすことを示す。また、報酬のスケールした累積物の成長速度は、適切なレニイクロスエントロピーによって特徴づけられることを示した。
論文参考訳（メタデータ） (2024-04-02T08:40:07Z)
Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文参考訳（メタデータ） (2023-11-01T11:52:41Z)
Variational Refinement for Importance Sampling Using the Forward Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文参考訳（メタデータ） (2021-06-30T11:00:24Z)
Towards Sample-Optimal Compressive Phase Retrieval with Sparse and Generative Priors [59.33977545294148]
O(k log L)$サンプルは振幅に基づく経験損失関数を最小化する任意のベクトルに信号が近いことを保証するのに十分であることを示す。この結果はスパース位相検索に適応し、基底信号が$s$-sparseおよび$n$-dimensionalである場合、$O(s log n)$サンプルは同様の保証に十分であることを示す。
論文参考訳（メタデータ） (2021-06-29T12:49:54Z)
The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d. 形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文参考訳（メタデータ） (2020-12-31T18:24:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。