論文の概要: Federated Fine-Tuning of Large Language Models: Kahneman-Tversky vs. Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.14187v1
- Date: Thu, 20 Feb 2025 01:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:29.856499
- Title: Federated Fine-Tuning of Large Language Models: Kahneman-Tversky vs. Direct Preference Optimization
- Title(参考訳): 大規模言語モデルのFederated Fine-Tuning: Kahneman-Tversky vs. Direct Preference Optimization
- Authors: Fernando Spadea, Oshani Seneviratne,
- Abstract要約: 我々は,大言語モデル (LLM) をフェデレート学習 (FL) 設定で微調整する方法として,KTO (Kahneman-Tversky Optimization) を評価した。
オリジナルの(KTOO)と再配布された(KTOR)構成の両方において、KTOはすべてのベンチマークで一貫してDPOを上回っている。
これらの知見は、KTOをFLの堅牢でスケーラブルな微調整方法として確立し、プライバシー保護、分散化、異種環境への採用を動機付けている。
- 参考スコア(独自算出の注目度): 49.88778604259453
- License:
- Abstract: We evaluate Kahneman-Tversky Optimization (KTO) as a fine-tuning method for large language models (LLMs) in federated learning (FL) settings, comparing it against Direct Preference Optimization (DPO). Using Alpaca-7B as the base model, we fine-tune on a realistic dataset under both methods and evaluate performance using MT-Bench-1, Vicuna, and AdvBench benchmarks. Additionally, we introduce a redistributed dataset setup, where only KTO is applicable due to its ability to handle single-response feedback, unlike DPO's reliance on paired responses. Our results demonstrate that KTO, in both its original (KTOO) and redistributed (KTOR) configurations, consistently outperforms DPO across all benchmarks. In the redistributed setup, KTO further validates its flexibility and resilience by maintaining superior performance in scenarios where DPO cannot be applied. These findings establish KTO as a robust and scalable fine-tuning method for FL, motivating its adoption for privacy-preserving, decentralized, and heterogeneous environments.
- Abstract(参考訳): 我々は,大言語モデル (LLM) を,直接選好最適化 (DPO) と比較し,FFL設定における微調整手法としてKTOを評価した。
基本モデルとしてAlpaca-7Bを用い,両手法で現実的なデータセットを微調整し,MT-Bench-1,Vicuna,AdvBenchベンチマークを用いて評価を行った。
さらに、DPOがペア応答に依存しているのとは異なり、単一応答フィードバックを処理できるため、KTOのみに適用可能な、再分散データセット設定も導入する。
以上の結果から,KTOはオリジナル(KTOO)と再分散(KTOR)構成の両方において,全ベンチマークにおいて常にDPOを上回っていることが示された。
再配布されたセットアップでは、DPOを適用することができないシナリオにおいて、優れたパフォーマンスを維持することにより、柔軟性とレジリエンスをさらに検証する。
これらの知見は、KTOをFLの堅牢でスケーラブルな微調整方法として確立し、プライバシー保護、分散化、異種環境への採用を動機付けている。
関連論文リスト
- TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization [34.29965046863887]
Triple Preference Optimization (TPO) は、推論能力と命令追従能力の両方を強化するために設計された新しい選好学習手法である。
TPOは、異なるデータセットサイズで応答長を大幅に増加させることなく、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。