論文の概要: BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling
- arxiv url: http://arxiv.org/abs/2406.00832v2
- Date: Wed, 5 Jun 2024 05:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 11:59:09.586110
- Title: BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling
- Title(参考訳): 大規模言語モデルのためのBoNBoNアライメントとBest-of-nサンプリングの甘さ
- Authors: Lin Gui, Cristina Gârbacea, Victor Veitch,
- Abstract要約: 本稿では,大言語モデルからのサンプルを,ベスト・オブ・nドルサンプリングを用いてヒトの嗜好に合わせることの問題点について述べる。
基本モデルからKL距離に対する勝利率とのトレードオフの観点から,n$の最高値が本質的に最適であることを示す。
実験により,BoNBoNアライメントは基本方針に好適なモデルの生成において,大幅な改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 16.38043428743923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper concerns the problem of aligning samples from large language models to human preferences using best-of-$n$ sampling, where we draw $n$ samples, rank them, and return the best one. We consider two fundamental problems. First: what is the relationship between best-of-$n$ and approaches to alignment that train LLMs to output samples with a high expected reward (e.g., RLHF or DPO)? To answer this, we embed both the best-of-$n$ distribution and the sampling distributions learned by alignment procedures in a common class of tiltings of the base LLM distribution. We then show that, within this class, best-of-$n$ is essentially optimal in terms of the trade-off between win-rate against the base model vs KL distance from the base model. That is, best-of-$n$ is the best choice of alignment distribution if the goal is to maximize win rate. However, best-of-$n$ requires drawing $n$ samples for each inference, a substantial cost. To avoid this, the second problem we consider is how to fine-tune a LLM to mimic the best-of-$n$ sampling distribution. We derive BoNBoN Alignment to achieve this by exploiting the special structure of the best-of-$n$ distribution. Experiments show that BoNBoN alignment yields substantial improvements in producing a model that is preferred to the base policy while minimally affecting off-target aspects.
- Abstract(参考訳): 本稿では,大言語モデルからのサンプルをベスト・オブ・n$サンプリングを用いてヒトの嗜好に合わせるという問題に対処し,そこでは,$n$サンプルを描画し,ランク付けし,ベストなものを返す。
根本的な問題は2つある。
第一に、n$のベストとLLMをトレーニングして高い報酬(例えばRLHFやDPO)でサンプルを出力するアライメントのアプローチの関係はどうでしょう?
これに対応するため、基底LSM分布の傾きの共通クラスに、ベスト・オブ・n$分布とアライメント手順で学習したサンプリング分布の両方を埋め込む。
すると、このクラスの中で、ベスト・オブ・n$は、基本モデルと基本モデルとのKL距離とのトレードオフに関して本質的に最適であることを示す。
つまり、勝率の最大化を目標とする場合、n$のベストがアライメント分布のベストチョイスである。
しかし、$n$のベストは推論毎に$n$のサンプルを描画することであり、かなりのコストがかかる。
これを避けるために、第2の問題は、LLMを微調整して、最高の$n$サンプリング分布を模倣する方法である。
我々は、最良のn$分布の特別な構造を利用して、BoNBoNアライメントを導出する。
実験により、BoNBoNアライメントは、ターゲット外の側面を最小限に抑えつつ、基本方針に好適なモデルを作成する上で、大幅な改善をもたらすことが示された。
関連論文リスト
- Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Distributional Preference Alignment of LLMs via Optimal Transport [36.95053112313244]
最適輸送(AOT)によるアライメント(Alignment)と呼ばれるLLMの分布選好アライメント手法を提案する。
AOTは、正のサンプルの報酬分布を負のサンプルの分布の第1次において支配的に支配することにより、LLMを未ペアの選好データに整合させる。
AOTは,Open LLM BenchmarksとAlpacaEvalで評価すると,7Bモデルの最先端モデルにつながることを示す。
論文 参考訳(メタデータ) (2024-06-09T18:41:05Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Asymptotics of Language Model Alignment [27.37118975691123]
最適KL制約RL解が大きな偏差原理を満たすことを示す。
また、報酬のスケールした累積物の成長速度は、適切なレニイクロスエントロピーによって特徴づけられることを示した。
論文 参考訳(メタデータ) (2024-04-02T08:40:07Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
基本方針と最良$n$ポリシーのKL分散は、$log (n) - (n-1)/n.$と等しいことを示す。
KLの発散に対する新しい推定器を提案し、いくつかの例を通して厳密な近似を与えることを実証的に示す。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Stochastic Approximation Approaches to Group Distributionally Robust
Optimization [96.26317627118912]
群分散ロバスト最適化(GDRO)
オンライン学習技術は、各ラウンドに必要なサンプル数をm$から1$に減らし、同じサンプルを保持する。
分布依存収束率を導出できる重み付きGDROの新規な定式化。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。