Fugu-MT 論文翻訳(概要): FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment

論文の概要: FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment

arxiv url: http://arxiv.org/abs/2603.19741v1
Date: Fri, 20 Mar 2026 08:24:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 19:48:39.052386
Title: FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment
Title（参考訳）: FedPDPO: 大規模言語モデルアライメントのためのFederated Personalized Direct Preference Optimization
Authors: Kewen Zhu, Liping Yi, Zhiming Zhao, Zhuang Qi, Han Yu, Qinghua Hu,
Abstract要約: Fed PDPO(Federated Personalized Direct Preference Optimization)は、大規模言語モデル(LLM)の優先順位調整のためのパーソナライズされたフレームワークである。パラメータ効率の良い微調整アーキテクチャを採用し、各クライアントはLow-Rank Adaptation (LoRA)アダプタで拡張された凍結したLLMバックボーンを維持し、通信効率のよいアグリゲーションを可能にする。複数の嗜好データセットの実験では、最先端のパフォーマンスを示し、フェデレーション付きドメイン内およびクロスドメイン設定の平均精度が4.80%向上した。
参考スコア（独自算出の注目度）: 55.97027207627
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Aligning large language models (LLMs) with human preferences in federated learning (FL) is challenging due to decentralized, privacy-sensitive, and highly non-IID preference data. Direct Preference Optimization (DPO) offers an efficient alternative to reinforcement learning with human feedback (RLHF), but its direct application in FL suffers from severe performance degradation under non-IID data and limited generalization of implicit rewards. To bridge this gap, we propose FedPDPO (Federated Personalized Direct Preference Optimization), a personalized federated framework for preference alignment of LLMs. It adopts a parameter-efficient fine-tuning architecture where each client maintains a frozen pretrained LLM backbone augmented with a Low-Rank Adaptation (LoRA) adapter, enabling communication-efficient aggregation. To address non-IID heterogeneity, we devise (1) the globally shared LoRA adapter with the personalized client-specific LLM head. Moreover, we introduce (2) a personalized DPO training strategy with a client-specific explicit reward head to complement implicit rewards and further alleviate non-IID heterogeneity, and (3) a bottleneck adapter to balance global and local features. We provide theoretical analysis establishing the probabilistic foundation and soundness. Extensive experiments on multiple preference datasets demonstrate state-of-the-art performance, achieving up to 4.80% average accuracy improvements in federated intra-domain and cross-domain settings.
Abstract（参考訳）: 大規模言語モデル (LLM) と人間の嗜好を協調するフェデレートラーニング (FL) は、分散化され、プライバシに敏感で、非IIDな嗜好データのために困難である。直接選好最適化(DPO)は、人間からのフィードバックによる強化学習(RLHF)に代わる効果的な代替手段を提供するが、FLにおける直接適用は、非IIDデータによる厳しい性能劣化と暗黙の報酬の限定的な一般化に悩まされている。このギャップを埋めるために、LLMの優先順位調整のための個人化されたフレームワークであるFedPDPO(Federated Personalized Direct Preference Optimization)を提案する。パラメータ効率の良い微調整アーキテクチャを採用し、各クライアントはLow-Rank Adaptation (LoRA)アダプタで拡張された凍結したLLMバックボーンを維持し、通信効率のよいアグリゲーションを可能にする。非IID不均一性に対処するため、(1)グローバル共有LoRAアダプタと、パーソナライズされたクライアント固有のLCMヘッドを設計する。さらに、(2)暗黙の報酬を補完し、さらに非IIDの不均一性を緩和するクライアント固有の明示的な報酬ヘッドを用いた個人化されたDPOトレーニング戦略、(3)グローバルな特徴と局所的な特徴のバランスをとるボトルネックアダプタを導入する。確率的基礎と音性を確立する理論的解析を行う。複数の嗜好データセットに関する大規模な実験は、最先端のパフォーマンスを示し、フェデレーションされたドメイン内およびクロスドメイン設定における平均精度を最大4.80%向上させる。

論文の概要: FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment

関連論文リスト