論文の概要: FLEx: Personalized Federated Learning for Mixture-of-Experts LLMs via Expert Grafting
- arxiv url: http://arxiv.org/abs/2506.00965v2
- Date: Tue, 07 Oct 2025 05:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:20.673834
- Title: FLEx: Personalized Federated Learning for Mixture-of-Experts LLMs via Expert Grafting
- Title(参考訳): FLEx: エキスパートグラフティングによるMixture-of-Experts LLMのための個人化フェデレーションラーニング
- Authors: Fan Liu, Bikang Pan, Zhongyi Wang, Xi Yao, Xiaoying Tang, Jingya Wang, Ye Shi,
- Abstract要約: 大規模言語モデル(LLM)のフェデレーション・インストラクションチューニングは、クライアント間の重要なデータ不均一性によって問題となる。
我々は,事前学習したMOEベースのLLMを効率よくパーソナライズするための新しいフレームワークであるFLExを提案する。
パーソナライズのために,動的疎度を活用して事前訓練した専門家の選抜されたコンポーネントからクライアント固有の専門家を構築する,新しい専門家グラフト機構を導入する。
- 参考スコア(独自算出の注目度): 40.23842164423827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Federated instruction tuning of large language models (LLMs) is challenged by significant data heterogeneity across clients, demanding robust personalization. The Mixture of Experts (MoE) architecture, where experts can specialize in distinct data patterns, presents a natural architectural solution to this challenge. The inherent sparsity of the MoE architecture, achieved by selectively activating experts, poses a significant challenge to its integration with federated learning (FL). Conventional FL frameworks, designed for dense models, naively aggregate all expert parameters irrespective of their local activation patterns. This naive approach not only undermines MoE's dynamic sparsity but also risks corrupting the world knowledge within pretrained experts. To address this, we propose FLEx (Federated LLMs with Personalized Experts), a novel framework that leverages pretrained MoE-based LLMs for efficient personalization. By aggregating only the shared non-expert parameters, FLEx significantly reduces communication overhead and preserves the world knowledge stored within the frozen pretrained experts. For personalization, we introduce a novel expert grafting mechanism that leverages dynamic sparsity to construct a client-specific expert from selected components of pretrained experts, tailored to local data. This grafted expert is then fine-tuned locally alongside the gating mechanism. This joint training enables the model to learn when to leverage the shared knowledge from frozen experts and when to employ the personalized one. Evaluations on diverse, non-IID instruction tuning datasets show that FLEx consistently outperforms federated baselines on average, while demonstrating strong knowledge preservation on the knowledge-driven benchmark MMLU. Our code is available at \href{https://anonymous.4open.science/r/FLEx-8F12}{\texttt{https://anonymous.4open.science/r/FLEx-8F12}}.
- Abstract(参考訳): 大規模言語モデル(LLM)のフェデレーション・インストラクション・チューニングは、クライアント間の大きなデータの異質性によって困難であり、堅牢なパーソナライゼーションが要求される。
専門家の混在(Mixture of Experts)アーキテクチャでは、専門家が異なるデータパターンを専門に扱うことができる。
専門家を選択的に活性化させることによって達成されるMoEアーキテクチャの本質的な疎性は、フェデレートラーニング(FL)との統合に重大な課題をもたらす。
密集モデル用に設計された従来のFLフレームワークは、局所的なアクティベーションパターンに関係なく、すべての専門家パラメータを鼻で集約する。
このナイーブなアプローチは、MoEのダイナミックな疎外性を損なうだけでなく、事前訓練された専門家の世界の知識を損なうリスクも負う。
そこで本研究では,事前学習したMOEベースのLLMを効率よくパーソナライズするためのフレームワークであるFLEx(Federated LLMs with Personalized Experts)を提案する。
共有された非専門家パラメータのみを集約することにより、FLExは通信オーバーヘッドを著しく減らし、凍結した事前訓練された専門家に蓄えられた世界的知識を保存する。
パーソナライズのために,動的疎結合を利用した新しい専門家グラフト機構を導入し,ローカルデータに合わせた事前学習した専門家の選抜したコンポーネントからクライアント固有の専門家を構築する。
このグラフトされた専門家は、ゲーティング機構とともに局所的に微調整される。
この共同トレーニングにより、モデルが凍結した専門家から共有知識をいつ活用するか、そしてパーソナライズされた知識をいつ活用するかを学ぶことができる。
多様な非IIDインストラクションチューニングデータセットの評価は、FLExが知識駆動ベンチマークMMLUで強い知識保存を示しながら、平均的にフェデレーションベースラインを一貫して上回っていることを示している。
我々のコードは \href{https://anonymous.4open.science/r/FLEx-8F12}{\textt{https://anonymous.4open.science/r/FLEx-8F12}} で入手できる。
関連論文リスト
- PM-MOE: Mixture of Experts on Private Model Parameters for Personalized Federated Learning [14.681194790227085]
フェデレーテッド・ラーニング(FL)は、プライバシー保護と協調学習能力で広く注目を集めている。
パーソナライズド・フェデレーション(Personalized Federated Learning)は、モデルをグローバルな共有部分とローカルなプライベート部分に分割することで、この問題に対処する。
本稿では、パーソナライズされたモジュールとエネルギーベースのパーソナライズされたモジュールを組み合わせたPM-MoEアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-01T07:20:21Z) - Personalized Federated Fine-Tuning for LLMs via Data-Driven Heterogeneous Model Architectures [15.645254436094055]
Federated Learning (FL) は、生データにアクセスすることなく、大規模言語モデルの協調的な微調整を可能にする。
データ駆動の異種モデルアーキテクチャを実現する軽量なパーソナライズFLフレームワークであるFedAMoLEを提案する。
実験の結果、FedAMoLEはクライアントサイドのパフォーマンスを既存のアプローチと比べて平均5.14%改善している。
論文 参考訳(メタデータ) (2024-11-28T13:20:38Z) - Personalized Hierarchical Split Federated Learning in Wireless Networks [24.664469755746463]
本稿では、パーソナライズ性能の向上を目的とした、パーソナライズされた階層分割型フェデレーション学習(PHSFL)アルゴリズムを提案する。
まず、モデル分割と階層モデル集約がグローバルモデルに与える影響を理解するために、広範囲な理論的解析を行う。
グローバルモデルがトレーニングされると、各クライアントを微調整してパーソナライズされたモデルを取得します。
論文 参考訳(メタデータ) (2024-11-09T02:41:53Z) - FedMoE: Personalized Federated Learning via Heterogeneous Mixture of Experts [4.412721048192925]
我々は、データ不均一性に対処するための効率的パーソナライズされたFederated LearningフレームワークであるFedMoEを紹介する。
FedMoEは2つの微調整段階から構成されており、第1段階では、観測されたアクティベーションパターンに基づいて探索を行うことで問題を単純化する。
第2段階では、これらのサブモデルはさらなるトレーニングのためにクライアントに配布され、サーバ集約のために返される。
論文 参考訳(メタデータ) (2024-08-21T03:16:12Z) - Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts [49.950419707905944]
本稿では,モノリシックLLMを,自己専門化の専門家による構成的,モジュール的なシステムに変換するアプローチであるSelf-MoEを紹介する。
提案手法は, 自己生成合成データを用いて, 専門家モジュールを構成する自己特殊化を利用する。
本研究は, モジュール性の重要性, マルチベースLCMへの適用性, 効率的でスケーラブルで適応可能なシステムの実現における自己改善の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-17T19:06:54Z) - Multi-Level Additive Modeling for Structured Non-IID Federated Learning [54.53672323071204]
我々は、異種クライアント間のより良い知識共有のために、マルチレベル付加モデル(MAM)と呼ばれるマルチレベル構造で編成されたモデルを訓練する。
フェデレートMAM(FeMAM)では、各クライアントは各レベル毎に少なくとも1つのモデルに割り当てられ、そのパーソナライズされた予測は、各レベルに割り当てられたモデルの出力を合計する。
実験により、FeMAMは既存のクラスタリングFLおよびパーソナライズされたFLメソッドを様々な非IID設定で超越していることが示された。
論文 参考訳(メタデータ) (2024-05-26T07:54:53Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - MAP: Model Aggregation and Personalization in Federated Learning with Incomplete Classes [49.22075916259368]
一部の実世界のアプリケーションでは、データサンプルは通常、ローカルデバイスに分散される。
本稿では,クライアントが不完全なクラスを所有する特別なI.I.D.シーンに焦点を当てる。
提案するMAPアルゴリズムは,FLにおけるアグリゲーションとパーソナライゼーションの目標を同時に達成できる。
論文 参考訳(メタデータ) (2024-04-14T12:22:42Z) - FedJETs: Efficient Just-In-Time Personalization with Federated Mixture
of Experts [48.78037006856208]
FedJETsは、Federated Learning(FL)セットアップ内でMixture-of-Experts(MoE)フレームワークを使用することで、新しいソリューションである。
我々の方法は、クライアントの多様性を活用して、クラスのサブセットの異なる専門家を訓練し、最も関係のある専門家に入力をルーティングするゲーティング機能を提供します。
我々の手法は、競争力のあるゼロショット性能を維持しながら、アートFL設定時の精度を最大18%向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T15:47:52Z) - Heterogeneous Ensemble Knowledge Transfer for Training Large Models in
Federated Learning [22.310090483499035]
フェデレートラーニング(FL)は、エッジデバイスがプライベートデータを中央集約サーバに公開することなく、協調的にモデルを学習することを可能にする。
既存のFLアルゴリズムの多くは、クライアントとサーバにまたがってデプロイされるのと同じアーキテクチャのモデルを必要とする。
本稿では,Fed-ETと呼ばれる新しいアンサンブル知識伝達手法を提案する。
論文 参考訳(メタデータ) (2022-04-27T05:18:32Z) - Efficient Split-Mix Federated Learning for On-Demand and In-Situ
Customization [107.72786199113183]
フェデレートラーニング(FL)は、複数の参加者が生データを共有せずに学習をコラボレーションするための分散ラーニングフレームワークを提供する。
本稿では, モデルサイズとロバスト性をその場でカスタマイズできる, 不均一な参加者のための新しいスプリット・ミクス・FL戦略を提案する。
論文 参考訳(メタデータ) (2022-03-18T04:58:34Z) - Federated Mutual Learning [65.46254760557073]
Federated Mutual Leaning (FML)は、クライアントが汎用モデルとパーソナライズされたモデルを独立してトレーニングすることを可能にする。
実験により、FMLは一般的なフェデレート学習環境よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-06-27T09:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。