論文の概要: Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization
- arxiv url: http://arxiv.org/abs/2405.16681v2
- Date: Tue, 18 Feb 2025 04:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:03:40.515315
- Title: Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization
- Title(参考訳): Triple Preference Optimization: 単一ステップ最適化によるより良いアライメントの実現
- Authors: Amir Saeidi, Shivanshu Verma, Aswin RRV, Kashif Rasul, Chitta Baral,
- Abstract要約: Triple Preference Optimization (TPO) は、推論能力と命令追従能力の両方を強化するために設計された新しい選好学習手法である。
TPOは、異なるデータセットサイズで応答長を大幅に増加させることなく、既存のメソッドよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 34.29965046863887
- License:
- Abstract: Reinforcement Learning with Human Feedback (RLHF) enhances the alignment of Large Language Models (LLMs). However, its limitations have led to the development of Direct Preference Optimization (DPO), an RL-free approach designed to overcome these shortcomings. While studies have shown that DPO improves instruction-following capabilities, it negatively impacts the reasoning ability of LLMs. Additionally, DPO is highly sensitive to judgment noise in preference datasets and the size of the training set. Although several modifications to DPO have been proposed, they still fail to fully resolve these issues. To address these limitations, we propose Triple Preference Optimization (TPO), a new preference learning method designed to enhance both reasoning and instruction-following abilities through one-step optimization. We compare TPO against DPO and its recent variants using state-of-the-art training setups, including both base and instruction-tuned models such as Mistral and Llama 3. Our evaluation covers a comprehensive range of chat-based and reasoning benchmarks. The results demonstrate that TPO achieves significant improvements over existing methods without substantially increasing response length across different dataset sizes. Specifically, TPO outperforms DPO and SimPO by up to 7.0% and 7.3% points on Arena-Hard, 12.2% and 13.3% points on MixEval-Hard, 10.4% and 10.1% points on MMLU-Pro, and 19.0% and 19.2% points on GSM8K, respectively. Furthermore, TPO achieves these improvements while requiring less data than DPO.
- Abstract(参考訳): Reinforcement Learning with Human Feedback (RLHF) は、Large Language Models (LLM) のアライメントを強化する。
しかし、その制限により、これらの欠点を克服するために設計されたRLフリーアプローチであるダイレクト・プレフレクション・最適化(DPO)の開発につながった。
研究によると、DPOは命令追従能力を改善するが、LLMの推論能力に悪影響を及ぼす。
さらに、DPOは選好データセットの判断ノイズやトレーニングセットのサイズに非常に敏感である。
DPOにいくつかの修正が提案されているが、これらの問題は完全な解決には至っていない。
これらの制約に対処するため,一段階最適化により推論能力と命令追従能力の両立を図った新しい選好学習手法TPOを提案する。
MistralやLlama 3といったベースモデルとインストラクションチューニングモデルを含む最先端のトレーニングセットアップを用いて,TPOとDPOを比較した。
私たちの評価では、チャットベースおよび推論ベンチマークを網羅的にカバーしています。
その結果、TPOは、異なるデータセットサイズで応答長を大幅に増加させることなく、既存の手法よりも大幅に改善されていることが示された。
具体的には、TPOは、Arena-Hardで最大7.0%、SimPOで最大7.3%、MixEval-Hardで12.2%、13.3%、MMLU-Proで10.4%、10.1%、GSM8Kで19.0%、19.2%となっている。
さらに、TPOはDPOよりも少ないデータでこれらの改善を実現している。
関連論文リスト
- Less is More: Improving LLM Alignment via Preference Data Selection [46.9163802899686]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なアプローチである。
DPOトレーニングにおけるデータセットキュレーションのための新たなマージン最大化原理を提案する。
Ultrafeedbackデータセットの10%しか使用せず、様々なLlamaおよびMistralシリーズモデルに対して3%から8%の改善を実現しています。
論文 参考訳(メタデータ) (2025-02-20T13:45:17Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings [40.605411087380226]
我々は、モデルがすでに正しくランク付けできるようなペアの理解を高めることを優先するDPO変種であるFocalPOを紹介した。
視覚タスクで使用されるFocal LossにインスパイアされたFocalPOは、動的にDPO損失をスケールするために変調係数を追加することでこれを達成している。
論文 参考訳(メタデータ) (2025-01-11T21:41:27Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Length Desensitization in Direct Preference Optimization [26.664176443756773]
DPOは冗長性に対して過度に最適化される傾向があり、パフォーマンスとユーザエクスペリエンスの両方に有害に影響を及ぼす可能性がある。
LD-DPO(LD-DPO)と呼ばれるDPOの時間依存性改善手法を提案する。
提案手法は,他の暗黙の選好から比較的重要でない明示的な長さ選好を分離することにより,DPOをデータ長に脱感化することを目的としている。
論文 参考訳(メタデータ) (2024-09-10T10:49:38Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
我々はDPOを再考し、その理論的基礎と経験的性能を分析した。
DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。
トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。