論文の概要: Unlocking Personalized Knowledge in Federated Large Language Model: The Power of Mixture of Experts
- arxiv url: http://arxiv.org/abs/2506.00965v1
- Date: Sun, 01 Jun 2025 11:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.87131
- Title: Unlocking Personalized Knowledge in Federated Large Language Model: The Power of Mixture of Experts
- Title(参考訳): フェデレーション付き大言語モデルにおけるパーソナライズド知識のアンロック:エキスパートの混合力
- Authors: Fan Liu, Bikang Pan, Zhongyi Wang, Xi Yao, Xiaoying Tang, Jingya Wang, Ye Shi,
- Abstract要約: 我々は,大規模言語モデル(LLM)に特化して設計された新しいフェデレーション学習フレームワークFLExを提案する。
FLExはグローバルなMoEモデルをプルーニングすることで効率よくパーソナライズし、クライアント毎に1人の専門家しか保持せず、適応的なゲーティングメカニズムを使用して、パーソナライズされた専門家をトレーニング済みのMoE層に再統合する。
これらのパーソナライズされた専門家はローカルデータでトレーニングされ、各クライアントにローカルに保存され、共有モジュールはグローバルに集約される。
- 参考スコア(独自算出の注目度): 14.713865726974761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Mixture of Experts (MoE) architecture has emerged as a prominent strategy for scaling large language models (LLMs), effectively leveraging sparse activation and facilitating task-specific personalization. However, current federated learning (FL) approaches are primarily designed for dense models, making them unable to directly exploit the sparsity inherent in MoE architectures. Treating MoE models as dense networks in federated scenarios results in excessive communication overhead and computational costs, undermining the potential for personalized knowledge sharing. To address these challenges, we propose FLEx (Federated LLMs with Personalized Experts), a novel federated learning framework explicitly tailored for MoE-based LLMs. FLEx efficiently personalizes by pruning the global MoE model to keep only one expert per client, and employs an adaptive gating mechanism to reintegrate these personalized experts into the pre-trained MoE layers, ensuring the original backbone architecture remains unchanged. These personalized experts are trained with local data and stored locally on each client, while the shared modules are aggregated globally. Extensive evaluations on diverse instruction-based datasets under non-IID conditions consistently demonstrate that FLEx outperforms existing federated baselines. Our code is available at https://anonymous.4open.science/r/FLEx-8F12.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリング戦略としてMixture of Experts (MoE)アーキテクチャが登場し、スパースアクティベーションを効果的に活用し、タスク固有のパーソナライズを容易にする。
しかし、現在の連邦学習(FL)アプローチは、主に密集モデルのために設計されており、MoEアーキテクチャに固有の空間を直接利用できない。
連合シナリオにおける密ネットワークとしてMoEモデルを扱うと、過剰な通信オーバーヘッドと計算コストが発生し、パーソナライズされた知識共有の可能性を損なう。
これらの課題に対処するため, FLEx (Federated LLMs with Personalized Experts) を提案する。
FLExはグローバルなMoEモデルをプルーニングすることで効率よくパーソナライズし、クライアントごとに1人の専門家しか保持せず、適応的なゲーティングメカニズムを使用して、これらのパーソナライズされた専門家をトレーニング済みのMoE層に再統合し、元のバックボーンアーキテクチャが変更されないようにする。
これらのパーソナライズされた専門家はローカルデータでトレーニングされ、各クライアントにローカルに保存され、共有モジュールはグローバルに集約される。
非IID条件下での多様な命令ベースデータセットの広範囲な評価は、FLExが既存のフェデレーションベースラインより優れていることを一貫して示している。
私たちのコードはhttps://anonymous.4open.science/r/FLEx-8F12で公開されています。
関連論文リスト
- HFedMoE: Resource-aware Heterogeneous Federated Learning with Mixture-of-Experts [26.55877320740609]
我々は,HFedMoEを提案する。HFedMoEは不均一なMoEベースのFLファインチューニングフレームワークで,各クライアントに専門家のサブセットをカスタマイズする。
HFedMoEは、微調整パフォーマンスへの貢献に基づいて、専門家の重要性を特定している。
そして、情報ボトルネックの観点から専門家のサブセットを適応的に選択し、各クライアントのコンピューティング予算に適合させる。
論文 参考訳(メタデータ) (2026-01-02T05:56:11Z) - FLEX-MoE: Federated Mixture-of-Experts with Load-balanced Expert Assignment [38.27527504479237]
Mixture-of-Experts (MoE)モデルは条件付き計算によってスケーラブルなニューラルネットワークを実現する。
このアプローチでは、トレーニングフィードバックを通じて、ローカルデータセットのエキスパート適合度を定量化する、クライアント-専門家適合度スコアを導入している。
3つの異なるデータセットに関する包括的実験により、提案したFLEX-MoEの優れた性能を示す。
論文 参考訳(メタデータ) (2025-12-28T20:32:13Z) - Dropping Experts, Recombining Neurons: Retraining-Free Pruning for Sparse Mixture-of-Experts LLMs [54.95810313530111]
DERNは、専門家のプルーニングと再構築のためのタスク非依存でトレーニングなしのフレームワークである。
コモンセンス推論やMMLUベンチマークでは、50%のエキスパートスパシティでパフォーマンスを5%以上向上させる。
論文 参考訳(メタデータ) (2025-09-12T16:09:39Z) - Distilling A Universal Expert from Clustered Federated Learning [23.801864975543122]
CFL(Clustered Federated Learning)は、複数のグループまたはクラスタ固有のエキスパートモデルをトレーニングすることによって、非IIDデータによって引き起こされる課題に対処する。
本稿では,複数のクラスタの知識から普遍的なエキスパートモデルを抽出する新しいFLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-25T09:44:39Z) - PM-MOE: Mixture of Experts on Private Model Parameters for Personalized Federated Learning [14.681194790227085]
フェデレーテッド・ラーニング(FL)は、プライバシー保護と協調学習能力で広く注目を集めている。
パーソナライズド・フェデレーション(Personalized Federated Learning)は、モデルをグローバルな共有部分とローカルなプライベート部分に分割することで、この問題に対処する。
本稿では、パーソナライズされたモジュールとエネルギーベースのパーソナライズされたモジュールを組み合わせたPM-MoEアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-01T07:20:21Z) - Personalized Federated Fine-Tuning for LLMs via Data-Driven Heterogeneous Model Architectures [15.645254436094055]
Federated Learning (FL) は、生データにアクセスすることなく、大規模言語モデルの協調的な微調整を可能にする。
データ駆動の異種モデルアーキテクチャを実現する軽量なパーソナライズFLフレームワークであるFedAMoLEを提案する。
実験の結果、FedAMoLEはクライアントサイドのパフォーマンスを既存のアプローチと比べて平均5.14%改善している。
論文 参考訳(メタデータ) (2024-11-28T13:20:38Z) - Personalized Hierarchical Split Federated Learning in Wireless Networks [24.664469755746463]
本稿では、パーソナライズ性能の向上を目的とした、パーソナライズされた階層分割型フェデレーション学習(PHSFL)アルゴリズムを提案する。
まず、モデル分割と階層モデル集約がグローバルモデルに与える影響を理解するために、広範囲な理論的解析を行う。
グローバルモデルがトレーニングされると、各クライアントを微調整してパーソナライズされたモデルを取得します。
論文 参考訳(メタデータ) (2024-11-09T02:41:53Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。
MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文 参考訳(メタデータ) (2024-10-02T14:48:22Z) - FedMoE: Personalized Federated Learning via Heterogeneous Mixture of Experts [4.412721048192925]
我々は、データ不均一性に対処するための効率的パーソナライズされたFederated LearningフレームワークであるFedMoEを紹介する。
FedMoEは2つの微調整段階から構成されており、第1段階では、観測されたアクティベーションパターンに基づいて探索を行うことで問題を単純化する。
第2段階では、これらのサブモデルはさらなるトレーニングのためにクライアントに配布され、サーバ集約のために返される。
論文 参考訳(メタデータ) (2024-08-21T03:16:12Z) - Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts [49.950419707905944]
本稿では,モノリシックLLMを,自己専門化の専門家による構成的,モジュール的なシステムに変換するアプローチであるSelf-MoEを紹介する。
提案手法は, 自己生成合成データを用いて, 専門家モジュールを構成する自己特殊化を利用する。
本研究は, モジュール性の重要性, マルチベースLCMへの適用性, 効率的でスケーラブルで適応可能なシステムの実現における自己改善の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-17T19:06:54Z) - Multi-Level Additive Modeling for Structured Non-IID Federated Learning [54.53672323071204]
我々は、異種クライアント間のより良い知識共有のために、マルチレベル付加モデル(MAM)と呼ばれるマルチレベル構造で編成されたモデルを訓練する。
フェデレートMAM(FeMAM)では、各クライアントは各レベル毎に少なくとも1つのモデルに割り当てられ、そのパーソナライズされた予測は、各レベルに割り当てられたモデルの出力を合計する。
実験により、FeMAMは既存のクラスタリングFLおよびパーソナライズされたFLメソッドを様々な非IID設定で超越していることが示された。
論文 参考訳(メタデータ) (2024-05-26T07:54:53Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - MAP: Model Aggregation and Personalization in Federated Learning with Incomplete Classes [49.22075916259368]
一部の実世界のアプリケーションでは、データサンプルは通常、ローカルデバイスに分散される。
本稿では,クライアントが不完全なクラスを所有する特別なI.I.D.シーンに焦点を当てる。
提案するMAPアルゴリズムは,FLにおけるアグリゲーションとパーソナライゼーションの目標を同時に達成できる。
論文 参考訳(メタデータ) (2024-04-14T12:22:42Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - FedJETs: Efficient Just-In-Time Personalization with Federated Mixture
of Experts [48.78037006856208]
FedJETsは、Federated Learning(FL)セットアップ内でMixture-of-Experts(MoE)フレームワークを使用することで、新しいソリューションである。
我々の方法は、クライアントの多様性を活用して、クラスのサブセットの異なる専門家を訓練し、最も関係のある専門家に入力をルーティングするゲーティング機能を提供します。
我々の手法は、競争力のあるゼロショット性能を維持しながら、アートFL設定時の精度を最大18%向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T15:47:52Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Heterogeneous Ensemble Knowledge Transfer for Training Large Models in
Federated Learning [22.310090483499035]
フェデレートラーニング(FL)は、エッジデバイスがプライベートデータを中央集約サーバに公開することなく、協調的にモデルを学習することを可能にする。
既存のFLアルゴリズムの多くは、クライアントとサーバにまたがってデプロイされるのと同じアーキテクチャのモデルを必要とする。
本稿では,Fed-ETと呼ばれる新しいアンサンブル知識伝達手法を提案する。
論文 参考訳(メタデータ) (2022-04-27T05:18:32Z) - Efficient Split-Mix Federated Learning for On-Demand and In-Situ
Customization [107.72786199113183]
フェデレートラーニング(FL)は、複数の参加者が生データを共有せずに学習をコラボレーションするための分散ラーニングフレームワークを提供する。
本稿では, モデルサイズとロバスト性をその場でカスタマイズできる, 不均一な参加者のための新しいスプリット・ミクス・FL戦略を提案する。
論文 参考訳(メタデータ) (2022-03-18T04:58:34Z) - Federated Mutual Learning [65.46254760557073]
Federated Mutual Leaning (FML)は、クライアントが汎用モデルとパーソナライズされたモデルを独立してトレーニングすることを可能にする。
実験により、FMLは一般的なフェデレート学習環境よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-06-27T09:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。