論文の概要: Variational Best-of-N Alignment
- arxiv url: http://arxiv.org/abs/2407.06057v3
- Date: Tue, 04 Mar 2025 14:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 13:46:35.405664
- Title: Variational Best-of-N Alignment
- Title(参考訳): 変分Nアライメント
- Authors: Afra Amini, Tim Vieira, Elliott Ash, Ryan Cotterell,
- Abstract要約: Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。
我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
- 参考スコア(独自算出の注目度): 57.617866305771756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Best-of-N (BoN) is a popular and effective algorithm for aligning language models to human preferences. The algorithm works as follows: at inference time, N samples are drawn from the language model, and the sample with the highest reward, as judged by a reward model, is returned as the output. Despite its effectiveness, BoN is computationally expensive; it reduces sampling throughput by a factor of N. To make BoN more efficient at inference time, one strategy is to fine-tune the language model to mimic what BoN does during inference. To achieve this, we derive the distribution induced by the BoN algorithm. We then propose to fine-tune the language model to minimize backward KL divergence to the BoN distribution. Our approach is analogous to mean-field variational inference and, thus, we term it variational BoN (vBoN). To the extent this fine-tuning is successful and we end up with a good approximation, we have reduced the inference cost by a factor of N. Our experiments on controlled generation and summarization tasks show that BoN is the most effective alignment method, and our variational approximation to BoN achieves the closest performance to BoN and surpasses models fine-tuned using the standard KL-constrained RL objective. In the controlled generation task, vBoN appears more frequently on the Pareto frontier of reward and KL divergence compared to other alignment methods. In the summarization task, vBoN achieves high reward values across various sampling temperatures.
- Abstract(参考訳): Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にN個のサンプルが言語モデルから引き出され、報酬モデルで判断される最も高い報酬を持つサンプルが出力として返される。
推論時にBoNをより効率的にするためには、推論中にBoNが行うことを模倣するために言語モデルを微調整する戦略がある。
これを実現するために、BoNアルゴリズムによって誘導される分布を導出する。
そこで我々は,BoN分布に対するKLの後方分散を最小限に抑えるために,言語モデルを微調整することを提案する。
我々のアプローチは平均場変動推定と類似しており、従ってそれを変分BoN (vBoN) と呼ぶ。
制御された生成および要約タスクの実験では、BoNが最も効果的なアライメント法であることが示され、BoNに対する変動近似はBoNに最も近い性能を達成し、標準のKL制約RL目標を用いて微調整されたモデルを上回る。
制御された生成タスクでは、vBoNは他のアライメント法と比較して、報酬のパレートフロンティアやKLの発散に頻繁に現れる。
要約タスクでは、vBoNは様々なサンプリング温度で高い報酬値を達成する。
関連論文リスト
- Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [64.2888389315149]
テスト時のスケーリングは、デコード時に余分な計算を追加することで、大きな言語モデルのパフォーマンスを改善する。
ベストオブNサンプリング(Best-of-N sample)は一般的なスケーリング手法であり、より良いソリューションを見つけるために検索スペースを広げる。
本稿では,全サンプリングの完全生成を回避する新しい復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
論文 参考訳(メタデータ) (2025-03-03T11:21:01Z) - Evaluation of Best-of-N Sampling Strategies for Language Model Alignment [6.4706370001155955]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好とLLM(Large Language Models)を整合させる効果的な戦略であることが示されている。
従来の研究は、目的に対して正規化したBoNサンプリングである正規化BoNサンプリング(RBoN)を提案し、BoNサンプリングよりも優れていることを示した。
本稿では、最悪のRBoNプロキシ報酬に対する理論的に保証されたアプローチであるRBoNサンプリング(SRBoN)と呼ばれるRBoNフレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2025-02-18T09:18:02Z) - Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models [80.65242356955231]
本稿では,推論時戦略の性能を直接最適化する手法により,モデルが微調整される,推論対応のファインチューニングパラダイムを提案する。
筆者らは,BoN内における困難で微分不可能なargmax演算子を克服し,BoN対応微調整のための最初の模倣学習と強化学習(RL)手法を考案した。
提案実験では,BoNを意識した微調整の有効性を,性能向上と推論時間計算の両面で実証した。
論文 参考訳(メタデータ) (2024-12-18T20:43:47Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - TreeBoN: Enhancing Inference-Time Alignment with Speculative Tree-Search and Best-of-N Sampling [39.019269570224004]
推論時アライメントは、追加のトレーニングや微調整を必要とせずに、大きな言語モデルの性能を向上させる。
Best-of-N (BoN) サンプリングは、単純だが強力なアプローチであり、複数のレスポンスを生成し、最良のものを選択する。
我々は、投機的木探索戦略をBest-of-N(BoN)サンプリングに統合する新しいフレームワークであるTreeBoNを提案する。
論文 参考訳(メタデータ) (2024-10-18T04:38:21Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment [7.349727826230864]
本稿では,報酬ハッキングの軽減を目的とした正規化Best-of-N(RBoN)を提案する。
RBoNは、選好学習技術と同様に、応答選択における近接項を組み込んでいる。
実験の結果、RBoNで生成されたデータセットに基づいて訓練されたDPOモデルは、バニラBoNで生成されたDPOモデルより優れていた。
論文 参考訳(メタデータ) (2024-04-01T11:26:50Z) - Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - Predictive Modeling through Hyper-Bayesian Optimization [60.586813904500595]
本稿では,モデル選択とBOを統合する新しい手法を提案する。
このアルゴリズムは、モデル空間のBOと関数空間のBOの間を行き来する。
サンプル効率の改善に加えて、ブラックボックス機能に関する情報も出力する。
論文 参考訳(メタデータ) (2023-08-01T04:46:58Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - Bayesian Neural Networks With Maximum Mean Discrepancy Regularization [13.97417198693205]
画像分類タスクを含む複数のベンチマークにおいて,BNNの精度が向上することを示す。
また, ある予測に対する不確実性を推定するための新しい定式化を行い, 敵の攻撃に対してより堅牢な行動を示す。
論文 参考訳(メタデータ) (2020-03-02T14:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。