論文の概要: Variational Best-of-N Alignment
- arxiv url: http://arxiv.org/abs/2407.06057v2
- Date: Mon, 03 Mar 2025 11:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:13:01.328876
- Title: Variational Best-of-N Alignment
- Title(参考訳): 変分Nアライメント
- Authors: Afra Amini, Tim Vieira, Elliott Ash, Ryan Cotterell,
- Abstract要約: Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。
我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
- 参考スコア(独自算出の注目度): 57.617866305771756
- License:
- Abstract: Best-of-N (BoN) is a popular and effective algorithm for aligning language models to human preferences. The algorithm works as follows: at inference time, N samples are drawn from the language model, and the sample with the highest reward, as judged by a reward model, is returned as the output. Despite its effectiveness, BoN is computationally expensive; it reduces sampling throughput by a factor of N. To make BoN more efficient at inference time, one strategy is to fine-tune the language model to mimic what BoN does during inference. To achieve this, we derive the distribution induced by the BoN algorithm. We then propose to fine-tune the language model to minimize backward KL divergence to the BoN distribution. Our approach is analogous to mean-field variational inference and, thus, we term it variational BoN (vBoN). To the extent this fine-tuning is successful and we end up with a good approximation, we have reduced the inference cost by a factor of N. Our experiments on controlled generation and summarization tasks show that BoN is the most effective alignment method, and our variational approximation to BoN achieves the closest performance to BoN and surpasses models fine-tuned using the standard KL-constrained RL objective. In the controlled generation task, vBoN appears more frequently on the Pareto frontier of reward and KL divergence compared to other alignment methods. In the summarization task, vBoN achieves high reward values across various sampling temperatures.
- Abstract(参考訳): Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にN個のサンプルが言語モデルから引き出され、報酬モデルで判断される最も高い報酬を持つサンプルが出力として返される。
推論時にBoNをより効率的にするためには、推論中にBoNが行うことを模倣するために言語モデルを微調整する戦略がある。
これを実現するために、BoNアルゴリズムによって誘導される分布を導出する。
そこで我々は,BoN分布に対するKLの後方分散を最小限に抑えるために,言語モデルを微調整することを提案する。
我々のアプローチは平均場変動推定と類似しており、従ってそれを変分BoN (vBoN) と呼ぶ。
制御された生成および要約タスクの実験では、BoNが最も効果的なアライメント法であることが示され、BoNに対する変動近似はBoNに最も近い性能を達成し、標準のKL制約RL目標を用いて微調整されたモデルを上回る。
制御された生成タスクでは、vBoNは他のアライメント法と比較して、報酬のパレートフロンティアやKLの発散に頻繁に現れる。
要約タスクでは、vBoNは様々なサンプリング温度で高い報酬値を達成する。
関連論文リスト
- Evaluation of Best-of-N Sampling Strategies for Language Model Alignment [6.4706370001155955]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好とLLM(Large Language Models)を整合させる効果的な戦略であることが示されている。
従来の研究は、目的に対して正規化したBoNサンプリングである正規化BoNサンプリング(RBoN)を提案し、BoNサンプリングよりも優れていることを示した。
本稿では、最悪のRBoNプロキシ報酬に対する理論的に保証されたアプローチであるRBoNサンプリング(SRBoN)と呼ばれるRBoNフレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2025-02-18T09:18:02Z) - Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models [80.65242356955231]
本稿では,推論時戦略の性能を直接最適化する手法により,モデルが微調整される,推論対応のファインチューニングパラダイムを提案する。
筆者らは,BoN内における困難で微分不可能なargmax演算子を克服し,BoN対応微調整のための最初の模倣学習と強化学習(RL)手法を考案した。
提案実験では,BoNを意識した微調整の有効性を,性能向上と推論時間計算の両面で実証した。
論文 参考訳(メタデータ) (2024-12-18T20:43:47Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - TreeBoN: Enhancing Inference-Time Alignment with Speculative Tree-Search and Best-of-N Sampling [39.019269570224004]
推論時アライメントは、追加のトレーニングや微調整を必要とせずに、大きな言語モデルの性能を向上させる。
Best-of-N (BoN) サンプリングは、単純だが強力なアプローチであり、複数のレスポンスを生成し、最良のものを選択する。
我々は、投機的木探索戦略をBest-of-N(BoN)サンプリングに統合する新しいフレームワークであるTreeBoNを提案する。
論文 参考訳(メタデータ) (2024-10-18T04:38:21Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment [7.349727826230864]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好に合わせてLLM(Large Language Models)を調整するための効果的な戦略であることが示されている。
報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を過度に最適化することは、真の目的に対するパフォーマンスを損なう可能性がある。
本稿では,最小ベイズリスク(MBR)目標を近接正規化項として組み込むことで,推論時の報酬ハッキングを緩和することを目的としたBoNの変種を提案する。
論文 参考訳(メタデータ) (2024-04-01T11:26:50Z) - Predictive Modeling through Hyper-Bayesian Optimization [60.586813904500595]
本稿では,モデル選択とBOを統合する新しい手法を提案する。
このアルゴリズムは、モデル空間のBOと関数空間のBOの間を行き来する。
サンプル効率の改善に加えて、ブラックボックス機能に関する情報も出力する。
論文 参考訳(メタデータ) (2023-08-01T04:46:58Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。