論文の概要: Decoding-Time Language Model Alignment with Multiple Objectives
- arxiv url: http://arxiv.org/abs/2406.18853v2
- Date: Sat, 29 Jun 2024 02:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 12:30:11.890598
- Title: Decoding-Time Language Model Alignment with Multiple Objectives
- Title(参考訳): 複数目的語を用いた復号時間言語モデルアライメント
- Authors: Ruizhe Shi, Yifang Chen, Yushi Hu, Alisa Liu, Hannaneh Hajishirzi, Noah A. Smith, Simon Du,
- Abstract要約: 既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
- 参考スコア(独自算出の注目度): 88.64776769490732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning language models (LMs) to human preferences has emerged as a critical pursuit, enabling these models to better serve diverse user needs. Existing methods primarily focus on optimizing LMs for a single reward function, limiting their adaptability to varied objectives. Here, we propose $\textbf{multi-objective decoding (MOD)}$, a decoding-time algorithm that outputs the next token from a linear combination of predictions of all base models, for any given weightings over different objectives. We exploit a common form among a family of $f$-divergence regularized alignment approaches (such as PPO, DPO, and their variants) to identify a closed-form solution by Legendre transform, and derive an efficient decoding strategy. Theoretically, we show why existing approaches can be sub-optimal even in natural settings and obtain optimality guarantees for our method. Empirical results demonstrate the effectiveness of the algorithm. For example, compared to a parameter-merging baseline, MOD achieves 12.8% overall reward improvement when equally optimizing towards $3$ objectives. Moreover, we experiment with MOD on combining three fully-finetuned LLMs of different model sizes, each aimed at different objectives such as safety, coding, and general user preference. Unlike traditional methods that require careful curation of a mixture of datasets to achieve comprehensive improvement, we can quickly experiment with preference weightings using MOD to find the best combination of models. Our best combination reduces toxicity on Toxigen to nearly 0% and achieves 7.9--33.3% improvement across other three metrics ($\textit{i.e.}$, Codex@1, GSM-COT, BBH-COT).
- Abstract(参考訳): 言語モデル(LM)を人間の好みに適応させることは、これらのモデルが多様なユーザニーズに合うようにするための重要な追求として現れている。
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,異なる目的に対する任意の重み付けに対して,すべてのベースモデルの予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$\textbf{multi-objective decoding (MOD)$を提案する。
我々は、$f$-divergence正規化アライメントアプローチ(PPO、DPO、およびそれらの変種など)の族間の共通形式を利用して、ルジャンドル変換による閉形式解を同定し、効率的な復号戦略を導出する。
理論的には,既存の手法が自然条件下においても準最適であることを示し,提案手法の最適性を保証する。
実験結果から,アルゴリズムの有効性が示された。
例えば、パラメータをマージするベースラインと比較して、MODは3ドル目標に等しく最適化した場合、全体的な報酬改善を12.8%達成している。
さらに,安全,コーディング,一般ユーザ嗜好など,モデルサイズが異なる3つの完全なLCMを組み合わせるためのMOD実験を行った。
包括的改善を達成するためにデータセットの混合を慎重にキュレーションする必要がある従来の方法とは異なり、MODを使って好みの重み付けを素早く実験することで、モデルの最良の組み合わせを見つけることができる。
我々の最良の組み合わせは、トキシゲンの毒性を0%近くまで減少させ、他の3つの指標(\textit{i.e.}$, Codex@1, GSM-COT, BBH-COT)に対して7.9-33.3%の改善を達成する。
関連論文リスト
- $f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [91.43730624072226]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。
ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文 参考訳(メタデータ) (2024-10-29T02:11:45Z) - It's Morphing Time: Unleashing the Potential of Multiple LLMs via Multi-objective Optimization [16.54335356612006]
モデルマージの目標は、複数のモデルを組み合わせることであり、それぞれが異なるタスクで優れており、個々のソースモデルよりも優れた1つのモデルにまとめることである。
既存の方法は、複数のタスクに取り組むための人間の直感とカスタマイズされた戦略に大きく依存している。
MM-MOと呼ばれる多目的最適化に基づくモデルマージ手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T16:34:23Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Adaptive Neural Ranking Framework: Toward Maximized Business Goal for
Cascade Ranking Systems [33.46891569350896]
カスケードランキングは、オンライン広告とレコメンデーションシステムにおける大規模なトップk選択問題に広く使われている。
それまでの学習からランクへの取り組みは、モデルに完全な順序やトップクオーダを学習させることに重点を置いていた。
我々はこの手法をアダプティブ・ニューラルランキング・フレームワーク (Adaptive Neural Ranking Framework, ARF) と命名する。
論文 参考訳(メタデータ) (2023-10-16T14:43:02Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Practical Bayesian Optimization of Objectives with Conditioning
Variables [1.0497128347190048]
ユーザが複数の問題に直面している場合、状態変数に対してそれぞれを条件付きで最適化する必要がある場合を考える。
目的間の類似性は、それぞれの目的を2つの方法で最適化する。
本稿では条件最適化のためのフレームワークであるConBOを提案する。
論文 参考訳(メタデータ) (2020-02-23T22:06:26Z) - Expected Information Maximization: Using the I-Projection for Mixture
Density Estimation [22.096148237257644]
高度にマルチモーダルなデータのモデリングは、機械学習において難しい問題である。
我々は,予測情報最大化(EIM)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムは最近のGANアプローチよりもI射影の計算に効果的であることを示す。
論文 参考訳(メタデータ) (2020-01-23T17:24:50Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。