論文の概要: $f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization
- arxiv url: http://arxiv.org/abs/2410.21662v1
- Date: Tue, 29 Oct 2024 02:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:19.720804
- Title: $f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization
- Title(参考訳): $f$-PO:$f$-divergence最小化による推論最適化の一般化
- Authors: Jiaqi Han, Mingjian Jiang, Yuxuan Song, Jure Leskovec, Stefano Ermon, Minkai Xu,
- Abstract要約: $f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。
ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
- 参考スコア(独自算出の注目度): 91.43730624072226
- License:
- Abstract: Preference optimization has made significant progress recently, with numerous methods developed to align language models with human preferences. This paper introduces $f$-divergence Preference Optimization ($f$-PO), a novel framework that generalizes and extends existing approaches. $f$-PO minimizes $f$-divergences between the optimized policy and the optimal policy, encompassing a broad family of alignment methods using various divergences. Our approach unifies previous algorithms like DPO and EXO, while offering new variants through different choices of $f$-divergences. We provide theoretical analysis of $f$-PO's properties and conduct extensive experiments on state-of-the-art language models using benchmark datasets. Results demonstrate $f$-PO's effectiveness across various tasks, achieving superior performance compared to existing methods on popular benchmarks such as AlpacaEval 2, Arena-Hard, and MT-Bench. Additionally, we present ablation studies exploring the impact of different $f$-divergences, offering insights into the trade-offs between regularization and performance in offline preference optimization. Our work contributes both practical algorithms and theoretical understanding to the field of language model alignment. Code is available at https://github.com/MinkaiXu/fPO.
- Abstract(参考訳): 近年,言語モデルと人間の嗜好を整合させる手法が数多く開発され,嗜好の最適化は大きな進歩を遂げている。
本稿では,既存のアプローチを一般化し拡張する新しいフレームワークである$f$-divergence Preference Optimization(f$-PO)を紹介する。
$f$-POは、最適化されたポリシーと最適なポリシーの間の$f$-divergencesを最小化し、様々な違いを使ったアライメントメソッドの幅広いファミリーを含む。
我々のアプローチは、DPOやEXOといった従来のアルゴリズムを統一し、$f$-divergencesの異なる選択によって新しい変種を提供する。
我々は,$f$-POの特性を理論的に分析し,ベンチマークデータセットを用いた最先端言語モデルに関する広範な実験を行う。
その結果,AlpacaEval 2 や Arena-Hard,MT-Bench といった一般的なベンチマークよりも優れた性能が得られた。
さらに,異なる$f$-divergencesの影響を調査し,オフライン優先最適化における正規化と性能のトレードオフについて考察する。
本研究は,言語モデルアライメントの分野における実践的アルゴリズムと理論的理解の両立に寄与する。
コードはhttps://github.com/MinkaiXu/fPOで入手できる。
関連論文リスト
- The Crucial Role of Samplers in Online Direct Preference Optimization [36.68862142959827]
DPO(Direct Preference Optimization)は、言語モデルアライメントのための安定的でスケーラブルで効率的なソリューションとして登場した。
我々はDPOの$textitconvergence rate$の厳密な分析を行い、正確な勾配設定の下で異なるサンプリング戦略を示す。
この結果は,DPOの理論的立場に関する知見を提供するとともに,潜在的なアルゴリズム設計の道を開くものである。
論文 参考訳(メタデータ) (2024-09-29T07:53:50Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Generalized Preference Optimization: A Unified Approach to Offline Alignment [54.97015778517253]
本稿では,一般的な凸関数のクラスによってパラメータ化されるオフライン損失の族である一般化された選好最適化(GPO)を提案する。
GPOは、DPO、IPO、SLiCといった既存のアルゴリズムを特別なケースとして含む、優先最適化に関する統一的なビューを可能にする。
本研究は,新たなアルゴリズムツールキットと経験的洞察を実践者のアライメントに提示する。
論文 参考訳(メタデータ) (2024-02-08T15:33:09Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - qPOTS: Efficient batch multiobjective Bayesian optimization via Pareto optimal Thompson sampling [0.0]
多目的最適化を解くためのサンプル効率のアプローチは、プロセス・オラクル・サロゲート(GP)とMOBOOTS$である。
我々はトンプソンサンプリング(TS)に基づくアプローチ(qtextttPOTS$)を提案する。
$qtextttPOTS$は、GP後部の安価な多目的最適化を進化的アプローチで解決する。
論文 参考訳(メタデータ) (2023-10-24T12:35:15Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。