Fugu-MT 論文翻訳(概要): BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling

論文の概要: BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling

arxiv url: http://arxiv.org/abs/2406.00832v2
Date: Wed, 5 Jun 2024 05:23:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 11:59:09.586110
Title: BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling
Title（参考訳）: 大規模言語モデルのためのBoNBoNアライメントとBest-of-nサンプリングの甘さ
Authors: Lin Gui, Cristina Gârbacea, Victor Veitch,
Abstract要約: 本稿では,大言語モデルからのサンプルを,ベスト・オブ・nドルサンプリングを用いてヒトの嗜好に合わせることの問題点について述べる。基本モデルからKL距離に対する勝利率とのトレードオフの観点から,n$の最高値が本質的に最適であることを示す。実験により,BoNBoNアライメントは基本方針に好適なモデルの生成において,大幅な改善をもたらすことが示された。
参考スコア（独自算出の注目度）: 16.38043428743923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper concerns the problem of aligning samples from large language models to human preferences using best-of-$n$ sampling, where we draw $n$ samples, rank them, and return the best one. We consider two fundamental problems. First: what is the relationship between best-of-$n$ and approaches to alignment that train LLMs to output samples with a high expected reward (e.g., RLHF or DPO)? To answer this, we embed both the best-of-$n$ distribution and the sampling distributions learned by alignment procedures in a common class of tiltings of the base LLM distribution. We then show that, within this class, best-of-$n$ is essentially optimal in terms of the trade-off between win-rate against the base model vs KL distance from the base model. That is, best-of-$n$ is the best choice of alignment distribution if the goal is to maximize win rate. However, best-of-$n$ requires drawing $n$ samples for each inference, a substantial cost. To avoid this, the second problem we consider is how to fine-tune a LLM to mimic the best-of-$n$ sampling distribution. We derive BoNBoN Alignment to achieve this by exploiting the special structure of the best-of-$n$ distribution. Experiments show that BoNBoN alignment yields substantial improvements in producing a model that is preferred to the base policy while minimally affecting off-target aspects.
Abstract（参考訳）: 本稿では,大言語モデルからのサンプルをベスト・オブ・n$サンプリングを用いてヒトの嗜好に合わせるという問題に対処し,そこでは,$n$サンプルを描画し,ランク付けし,ベストなものを返す。根本的な問題は2つある。第一に、n$のベストとLLMをトレーニングして高い報酬(例えばRLHFやDPO)でサンプルを出力するアライメントのアプローチの関係はどうでしょう? これに対応するため、基底LSM分布の傾きの共通クラスに、ベスト・オブ・n$分布とアライメント手順で学習したサンプリング分布の両方を埋め込む。すると、このクラスの中で、ベスト・オブ・n$は、基本モデルと基本モデルとのKL距離とのトレードオフに関して本質的に最適であることを示す。つまり、勝率の最大化を目標とする場合、n$のベストがアライメント分布のベストチョイスである。しかし、$n$のベストは推論毎に$n$のサンプルを描画することであり、かなりのコストがかかる。これを避けるために、第2の問題は、LLMを微調整して、最高の$n$サンプリング分布を模倣する方法である。我々は、最良のn$分布の特別な構造を利用して、BoNBoNアライメントを導出する。実験により、BoNBoNアライメントは、ターゲット外の側面を最小限に抑えつつ、基本方針に好適なモデルを作成する上で、大幅な改善をもたらすことが示された。

関連論文リスト

Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences? [20.004349891563706]
事前学習後、大きな言語モデルはペア比較に基づいて人間の好みに適合する。本稿では,最適達成可能な平均効用量と学習ポリシーの平均効用量との最悪のケース比について,アライメント手法の歪みを紹介する。
論文参考訳（メタデータ） (2025-05-29T17:59:20Z)
Soft Best-of-n Sampling for Model Alignment [19.80655819384635]
Best-of-n$のサンプリングは、言語モデルの出力を人間の好みに合わせるための実践的なアプローチである。我々は,初期分布と報酬最大化分布のスムーズな一般化を可能にするソフト・ベスト・オブ・n$サンプリングを導入する。離散的な出力の列に対して、ブロックワイズサンプリングの基本的限界を明らかにする付加的な報酬モデルを分析する。
論文参考訳（メタデータ） (2025-05-06T04:03:11Z)
Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文参考訳（メタデータ） (2025-02-24T05:24:52Z)
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文参考訳（メタデータ） (2024-06-21T18:06:30Z)
Distributional Preference Alignment of LLMs via Optimal Transport [36.95053112313244]
最適輸送(AOT)によるアライメント(Alignment)と呼ばれるLLMの分布選好アライメント手法を提案する。 AOTは、正のサンプルの報酬分布を負のサンプルの分布の第1次において支配的に支配することにより、LLMを未ペアの選好データに整合させる。 AOTは,Open LLM BenchmarksとAlpacaEvalで評価すると,7Bモデルの最先端モデルにつながることを示す。
論文参考訳（メタデータ） (2024-06-09T18:41:05Z)
Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文参考訳（メタデータ） (2024-05-30T21:36:12Z)
Asymptotics of Language Model Alignment [27.37118975691123]
最適KL制約RL解が大きな偏差原理を満たすことを示す。また、報酬のスケールした累積物の成長速度は、適切なレニイクロスエントロピーによって特徴づけられることを示した。
論文参考訳（メタデータ） (2024-04-02T08:40:07Z)
Minimax Optimality of Score-based Diffusion Models: Beyond the Density Lower Bound Assumptions [11.222970035173372]
カーネルベースのスコア推定器は$widetildeOleft(n-1 t-fracd+22(tfracd2 vee 1)rightの最適平均二乗誤差を達成する核を用いたスコア推定器は,拡散モデルで生成した試料の分布の総変動誤差に対して,極小ガウスの下での最大平均2乗誤差を$widetildeOleft(n-1/2 t-fracd4right)$上界で達成することを示す。
論文参考訳（メタデータ） (2024-02-23T20:51:31Z)
Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
ヒューマンフィードバック(RLHF)からの強化学習を用いた大規模言語モデル(LLM)のアライメント状況の均一なサンプリングは、最適政策と一定の準最適差を被る政策につながる可能性があることを示す。我々は,最も不確実なコンテキストに対する嗜好を反復的に収集するアルゴリズムである$textttAPO$を提案する。
論文参考訳（メタデータ） (2024-02-16T08:19:34Z)
Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
基本方針と最良$n$ポリシーのKL分散は、$log (n) - (n-1)/n.$と等しいことを示す。 KLの発散に対する新しい推定器を提案し、いくつかの例を通して厳密な近似を与えることを実証的に示す。
論文参考訳（メタデータ） (2024-01-03T18:39:13Z)
Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond [89.72693227960274]
本稿では,グループ分散ロバスト最適化 (GDRO) を,$m$以上の異なる分布をうまく処理するモデルを学習する目的で検討する。各ラウンドのサンプル数を$m$から1に抑えるため、GDROを2人でプレイするゲームとして、一方のプレイヤーが実行し、他方のプレイヤーが非公開のマルチアームバンディットのオンラインアルゴリズムを実行する。第2のシナリオでは、最大リスクではなく、平均的最上位k$リスクを最適化し、分散の影響を軽減することを提案する。
論文参考訳（メタデータ） (2023-02-18T09:24:15Z)
Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文参考訳（メタデータ） (2022-08-11T04:12:50Z)
Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文参考訳（メタデータ） (2020-07-15T03:25:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。