論文の概要: Variational Best-of-N Alignment
- arxiv url: http://arxiv.org/abs/2407.06057v1
- Date: Mon, 8 Jul 2024 15:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:01:13.003165
- Title: Variational Best-of-N Alignment
- Title(参考訳): 変分Nアライメント
- Authors: Afra Amini, Tim Vieira, Ryan Cotterell,
- Abstract要約: Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。
我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
- 参考スコア(独自算出の注目度): 58.7977683502207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Best-of-N (BoN) is a popular and effective algorithm for aligning language models to human preferences. The algorithm works as follows: at inference time, N samples are drawn from the language model, and the sample with the highest reward, as judged by a reward model, is returned as the output. Despite its effectiveness, BoN is computationally expensive; it reduces sampling throughput by a factor of N. To make BoN more efficient at inference time, one strategy is to fine-tune the language model to mimic what BoN does during inference. To achieve this, we derive the distribution induced by the BoN algorithm. We then propose to fine-tune the language model to minimize backward KL divergence to the BoN distribution. Our approach is analogous to mean-field variational inference and, thus, we term it variational BoN (vBoN). To the extent this fine-tuning is successful and we end up with a good approximation, we have reduced the inference cost by a factor of N. Our experiments on a controlled generation task suggest that while variational BoN is not as effective as BoN in aligning language models, it is close to BoN performance as vBoN appears more often on the Pareto frontier of reward and KL divergence compared to models trained with KL-constrained RL objective.
- Abstract(参考訳): Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にN個のサンプルが言語モデルから引き出され、報酬モデルで判断される最も高い報酬を持つサンプルが出力として返される。
推論時にBoNをより効率的にするためには、推論中にBoNが行うことを模倣するために言語モデルを微調整する戦略がある。
これを実現するために、BoNアルゴリズムによって誘導される分布を導出する。
そこで我々は,BoN分布に対するKLの後方分散を最小限に抑えるために,言語モデルを微調整することを提案する。
我々のアプローチは平均場変動推定と類似しており、従ってそれを変分BoN (vBoN) と呼ぶ。
制御された生成タスクの実験では、ボNは言語モデルの整合においてBoNほど効果的ではないが、vBoNが報酬のParetoフロンティアやKLディペンジェンスによく現れるのに対して、KL制約されたRLの目的で訓練されたモデルに比べて、BoNのパフォーマンスに近いことが示唆されている。
関連論文リスト
- BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Can Perplexity Predict Fine-Tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali [0.0]
サブワードが言語モデルの理解能力にどのように影響するかの研究はほとんどなく、少数の言語に限られている。
ネパールの比較的小さな言語モデルを事前訓練するために、6つの異なるトークン化スキームを使用し、下流のタスクを微調整するために学んだ表現を使用しました。
論文 参考訳(メタデータ) (2024-04-28T05:26:12Z) - Regularized Best-of-N Sampling to Mitigate Reward Hacking for Language Model Alignment [7.349727826230864]
本稿では,報酬ハッキングの軽減を目的とした正規化Best-of-N(RBoN)を提案する。
RBoNは、選好学習技術と同様に、応答選択における近接項を組み込んでいる。
実験の結果、RBoNで生成されたデータセットに基づいて訓練されたDPOモデルは、バニラBoNで生成されたDPOモデルより優れていた。
論文 参考訳(メタデータ) (2024-04-01T11:26:50Z) - Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - Predictive Modeling through Hyper-Bayesian Optimization [60.586813904500595]
本稿では,モデル選択とBOを統合する新しい手法を提案する。
このアルゴリズムは、モデル空間のBOと関数空間のBOの間を行き来する。
サンプル効率の改善に加えて、ブラックボックス機能に関する情報も出力する。
論文 参考訳(メタデータ) (2023-08-01T04:46:58Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - Bayesian Neural Networks With Maximum Mean Discrepancy Regularization [13.97417198693205]
画像分類タスクを含む複数のベンチマークにおいて,BNNの精度が向上することを示す。
また, ある予測に対する不確実性を推定するための新しい定式化を行い, 敵の攻撃に対してより堅牢な行動を示す。
論文 参考訳(メタデータ) (2020-03-02T14:54:48Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。