論文の概要: FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment
- arxiv url: http://arxiv.org/abs/2603.19741v1
- Date: Fri, 20 Mar 2026 08:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.052386
- Title: FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment
- Title(参考訳): FedPDPO: 大規模言語モデルアライメントのためのFederated Personalized Direct Preference Optimization
- Authors: Kewen Zhu, Liping Yi, Zhiming Zhao, Zhuang Qi, Han Yu, Qinghua Hu,
- Abstract要約: Fed PDPO(Federated Personalized Direct Preference Optimization)は、大規模言語モデル(LLM)の優先順位調整のためのパーソナライズされたフレームワークである。
パラメータ効率の良い微調整アーキテクチャを採用し、各クライアントはLow-Rank Adaptation (LoRA)アダプタで拡張された凍結したLLMバックボーンを維持し、通信効率のよいアグリゲーションを可能にする。
複数の嗜好データセットの実験では、最先端のパフォーマンスを示し、フェデレーション付きドメイン内およびクロスドメイン設定の平均精度が4.80%向上した。
- 参考スコア(独自算出の注目度): 55.97027207627
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Aligning large language models (LLMs) with human preferences in federated learning (FL) is challenging due to decentralized, privacy-sensitive, and highly non-IID preference data. Direct Preference Optimization (DPO) offers an efficient alternative to reinforcement learning with human feedback (RLHF), but its direct application in FL suffers from severe performance degradation under non-IID data and limited generalization of implicit rewards. To bridge this gap, we propose FedPDPO (Federated Personalized Direct Preference Optimization), a personalized federated framework for preference alignment of LLMs. It adopts a parameter-efficient fine-tuning architecture where each client maintains a frozen pretrained LLM backbone augmented with a Low-Rank Adaptation (LoRA) adapter, enabling communication-efficient aggregation. To address non-IID heterogeneity, we devise (1) the globally shared LoRA adapter with the personalized client-specific LLM head. Moreover, we introduce (2) a personalized DPO training strategy with a client-specific explicit reward head to complement implicit rewards and further alleviate non-IID heterogeneity, and (3) a bottleneck adapter to balance global and local features. We provide theoretical analysis establishing the probabilistic foundation and soundness. Extensive experiments on multiple preference datasets demonstrate state-of-the-art performance, achieving up to 4.80% average accuracy improvements in federated intra-domain and cross-domain settings.
- Abstract(参考訳): 大規模言語モデル (LLM) と人間の嗜好を協調するフェデレートラーニング (FL) は、分散化され、プライバシに敏感で、非IIDな嗜好データのために困難である。
直接選好最適化(DPO)は、人間からのフィードバックによる強化学習(RLHF)に代わる効果的な代替手段を提供するが、FLにおける直接適用は、非IIDデータによる厳しい性能劣化と暗黙の報酬の限定的な一般化に悩まされている。
このギャップを埋めるために、LLMの優先順位調整のための個人化されたフレームワークであるFedPDPO(Federated Personalized Direct Preference Optimization)を提案する。
パラメータ効率の良い微調整アーキテクチャを採用し、各クライアントはLow-Rank Adaptation (LoRA)アダプタで拡張された凍結したLLMバックボーンを維持し、通信効率のよいアグリゲーションを可能にする。
非IID不均一性に対処するため、(1)グローバル共有LoRAアダプタと、パーソナライズされたクライアント固有のLCMヘッドを設計する。
さらに、(2)暗黙の報酬を補完し、さらに非IIDの不均一性を緩和するクライアント固有の明示的な報酬ヘッドを用いた個人化されたDPOトレーニング戦略、(3)グローバルな特徴と局所的な特徴のバランスをとるボトルネックアダプタを導入する。
確率的基礎と音性を確立する理論的解析を行う。
複数の嗜好データセットに関する大規模な実験は、最先端のパフォーマンスを示し、フェデレーションされたドメイン内およびクロスドメイン設定における平均精度を最大4.80%向上させる。
関連論文リスト
- FeDecider: An LLM-Based Framework for Federated Cross-Domain Recommendation [75.50721642765994]
大規模言語モデル(LLM)ベースのレコメンデーションモデルは、素晴らしいパフォーマンスを示している。
We propose a LLM-based framework for Federated cross- domain recommendation, FeDecider。
多様なデータセットにわたる大規模な実験により、提案したFeDeciderの有効性が検証された。
論文 参考訳(メタデータ) (2026-02-17T21:42:28Z) - CO-PFL: Contribution-Oriented Personalized Federated Learning for Heterogeneous Networks [51.43780477302533]
コントリビューション指向型PFL(CO-PFL)は,グローバルアグリゲーションに対する各クライアントのコントリビューションを動的に推定するアルゴリズムである。
CO-PFLは、パーソナライズ精度、堅牢性、スケーラビリティ、収束安定性において、最先端の手法を一貫して超越している。
論文 参考訳(メタデータ) (2025-10-23T05:10:06Z) - FedDuA: Doubly Adaptive Federated Learning [2.6108066206600555]
フェデレーション学習(Federated Learning)は、クライアントが生データを共有せずにグローバルモデルを共同でトレーニングする分散学習フレームワークである。
我々は、ミラー降下レンズによる中央サーバ最適化手順を定式化し、FedDuAと呼ばれる新しいフレームワークを提案する。
提案した2次適応型ステップサイズルールは最小限最適であり,凸対象に対する収束解析を提供する。
論文 参考訳(メタデータ) (2025-05-16T11:15:27Z) - Personalized Federated Fine-tuning for Heterogeneous Data: An Automatic Rank Learning Approach via Two-Level LoRA [14.786030311860145]
PF2LoRAは、2レベルLORAによる新しいアンフェマティックなランク学習アプローチに基づいて構築された、パーソナライズされたファインチューニングアルゴリズムである
自然言語理解および生成タスクに関する実験により,PF2LoRAが既存のファインチューニング手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-03-05T21:41:03Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - FedMAP: Personalised Federated Learning for Real Large-Scale Healthcare Systems [14.378330471182586]
フェデレーテッド・ラーニング(FL)は、データのプライバシを保護しながら、医療現場での機械学習を可能にすることを約束する。
我々は,局所的な最大値(MAP)推定による統計的不均一性に対処するパーソナライズされたFLフレームワークであるFedMAPを紹介する。
局所トレーニング,FedAvg,PFL法を3つの大規模臨床データセットで比較検討した。
論文 参考訳(メタデータ) (2024-05-29T11:28:06Z) - Unified Preference Optimization: Language Model Alignment Beyond the Preference Frontier [0.5120567378386615]
大規模言語モデル(LLM)の整合化のための統一的アプローチを提案する。
好みと補助目的の単純な分解に基づいて、ユーザとデザイナーの好みを最適化するためにLLMをチューニングできる。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。