論文の概要: Triple Preference Optimization: Achieving Better Alignment with Less Data in a Single Step Optimization
- arxiv url: http://arxiv.org/abs/2405.16681v1
- Date: Sun, 26 May 2024 20:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:48:31.496029
- Title: Triple Preference Optimization: Achieving Better Alignment with Less Data in a Single Step Optimization
- Title(参考訳): Triple Preference Optimization: 単一ステップ最適化におけるデータ少ないアライメントの達成
- Authors: Amir Saeidi, Shivanshu Verma, Aswin RRV, Chitta Baral,
- Abstract要約: Triple Preference Optimization (TPO) は、大きめの言語モデルと3つの好みを、別個のSupervised Fine-Tuned (SFT)モデルを必要とせずに整合させるように設計されている。
TPOは,SFT,DPO,KTO,IPO,CPO,ORPOといった他の手法によるモデルと比較して,優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 35.36615140853107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) perform well across diverse tasks, but aligning them with human demonstrations is challenging. Recently, Reinforcement Learning (RL)-free methods like Direct Preference Optimization (DPO) have emerged, offering improved stability and scalability while retaining competitive performance relative to RL-based methods. However, while RL-free methods deliver satisfactory performance, they require significant data to develop a robust Supervised Fine-Tuned (SFT) model and an additional step to fine-tune this model on a preference dataset, which constrains their utility and scalability. In this paper, we introduce Triple Preference Optimization (TPO), a new preference learning method designed to align an LLM with three preferences without requiring a separate SFT step and using considerably less data. Through a combination of practical experiments and theoretical analysis, we show the efficacy of TPO as a single-step alignment strategy. Specifically, we fine-tuned the Phi-2 (2.7B) and Mistral (7B) models using TPO directly on the UltraFeedback dataset, achieving superior results compared to models aligned through other methods such as SFT, DPO, KTO, IPO, CPO, and ORPO. Moreover, the performance of TPO without the SFT component led to notable improvements in the MT-Bench score, with increases of +1.27 and +0.63 over SFT and DPO, respectively. Additionally, TPO showed higher average accuracy, surpassing DPO and SFT by 4.2% and 4.97% on the Open LLM Leaderboard benchmarks. Our code is publicly available at https://github.com/sahsaeedi/triple-preference-optimization .
- Abstract(参考訳): 大きな言語モデル(LLM)は様々なタスクでうまく機能しますが、それらを人間のデモと整合させることは難しいです。
近年,DPO(Direct Preference Optimization)のような強化学習(Reinforcement Learning, RL)のない手法が登場し, 安定性とスケーラビリティが向上した。
しかし、RLフリーな手法は良好な性能を提供するが、堅牢なSupervised Fine-Tuned (SFT)モデルを開発するためにはかなりのデータが必要である。
本稿では,異なるSFTステップを必要とせず,より少ないデータを使用することなく,LLMを3つの選好に整合させる新しい選好学習手法であるトリプル選好最適化(TPO)を提案する。
実用実験と理論的解析を組み合わせることで,TPOを単一段階のアライメント戦略として有効性を示す。
具体的には,TPOをUltraFeedbackデータセットに直接使用したPhi-2 (2.7B) とMistral (7B) モデルを微調整し,SFT,DPO,KTO,IPO,CPO,ORPOなどの他の手法で整列したモデルと比較して,優れた結果を得た。
さらに、SFT成分を含まないTPOの性能は、MT-Benchスコアに顕著な改善をもたらし、それぞれSFTとDPOに対して+1.27と+0.63が増加した。
さらにTPOは平均精度が高く、Open LLM LeaderboardベンチマークではDPOとSFTを4.2%、SFTは4.97%上回った。
私たちのコードはhttps://github.com/sahsaeedi/triple-preference-timization で公開されています。
関連論文リスト
- Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - WPO: Enhancing RLHF with Weighted Preference Optimization [40.07940023654452]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の価値をより緊密に整合させる、有望なソリューションである。
オフ・ポリティクスの選好最適化は、データ収集に使用されるポリシーとターゲットポリシーの間の分散的なギャップに悩まされることが多く、最適化の準最適化につながる。
本稿では,この問題を解決するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:13Z) - On Softmax Direct Preference Optimization for Recommendation [50.896117978746]
我々は,LMをベースとした推薦者が好む項目と好ましくない項目を区別するのを支援するために,ランキング情報をLMに挿入するソフトマックスDPOを提案する。
具体的には、ユーザの嗜好データに複数の負を組み込んで、LMベースのレコメンデータに適したDPO損失の代替版を考案する。
論文 参考訳(メタデータ) (2024-06-13T15:16:11Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [26.196705232699884]
直感的ファインチューニング(IFT)を導入し,SFTと優先度最適化をひとつのプロセスに統合する。
IFTは、SFTのシーケンシャルなレシピやいくつかの典型的なPreference Optimizationメソッドと相容れないか、それ以上に優れている。
説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive [15.066029556877721]
理論上、標準的なDPO損失は、モデルが好むサンプルの可能性を減少させる可能性があることを示す。
DPO-Positive (DPOP) は,この障害モードを回避する新しい損失関数とトレーニング手順である。
意外なことに、DPOPはさまざまなデータセットや下流タスクでDPOやその他の微調整手順より優れています。
論文 参考訳(メタデータ) (2024-02-20T18:42:34Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。