論文の概要: DeepFusion: Accelerating MoE Training via Federated Knowledge Distillation from Heterogeneous Edge Devices
- arxiv url: http://arxiv.org/abs/2602.14301v1
- Date: Sun, 15 Feb 2026 20:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.945244
- Title: DeepFusion: Accelerating MoE Training via Federated Knowledge Distillation from Heterogeneous Edge Devices
- Title(参考訳): DeepFusion: 異種エッジデバイスからのフェデレーション知識蒸留によるMoEトレーニングの高速化
- Authors: Songyuan Li, Jia Hu, Ahmed M. Abdelmoniem, Geyong Min, Haojun Huang, Jiwei Huang,
- Abstract要約: 最近の大規模言語モデル(LLM)は、自然言語処理において生成AIを変換している。
これらのモデルは、広範囲で多様なトレーニングデータを必要とする。
DeepFusionは、最初のスケーラブルなFederated MoEトレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 31.78787975596697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Mixture-of-Experts (MoE)-based large language models (LLMs) such as Qwen-MoE and DeepSeek-MoE are transforming generative AI in natural language processing. However, these models require vast and diverse training data. Federated learning (FL) addresses this challenge by leveraging private data from heterogeneous edge devices for privacy-preserving MoE training. Nonetheless, traditional FL approaches require devices to host local MoE models, which is impractical for resource-constrained devices due to large model sizes. To address this, we propose DeepFusion, the first scalable federated MoE training framework that enables the fusion of heterogeneous on-device LLM knowledge via federated knowledge distillation, yielding a knowledge-abundant global MoE model. Specifically, DeepFusion features each device to independently configure and train an on-device LLM tailored to its own needs and hardware limitations. Furthermore, we propose a novel View-Aligned Attention (VAA) module that integrates multi-stage feature representations from the global MoE model to construct a predictive perspective aligned with on-device LLMs, thereby enabling effective cross-architecture knowledge distillation. By explicitly aligning predictive perspectives, VAA resolves the view-mismatch problem in traditional federated knowledge distillation, which arises from heterogeneity in model architectures and prediction behaviors between on-device LLMs and the global MoE model. Experiments with industry-level MoE models (Qwen-MoE and DeepSeek-MoE) and real-world datasets (medical and finance) demonstrate that DeepFusion achieves performance close to centralized MoE training. Compared with key federated MoE baselines, DeepFusion reduces communication costs by up to 71% and improves token perplexity by up to 5.28%.
- Abstract(参考訳): Qwen-MoEやDeepSeek-MoEのような最近のMixture-of-Experts (MoE)ベースの大規模言語モデル(LLM)は、自然言語処理において生成AIを変換している。
しかし、これらのモデルは広範囲で多様なトレーニングデータを必要とする。
フェデレーション学習(FL)は、プライバシー保護のためのMoEトレーニングに異種エッジデバイスからのプライベートデータを活用することで、この問題に対処する。
それでも、従来のFLアプローチでは、ローカルなMoEモデルをホストする必要がある。
この問題を解決するために、DeepFusionを提案する。DeepFusionは、異種オンデバイスLCM知識をフェデレーションド・ナレッジ蒸留により融合し、知識に富んだグローバルなMoEモデルを実現するための、最初のスケーラブルな連邦MoEトレーニングフレームワークである。
具体的には、DeepFusionは各デバイスに対して、独自のニーズとハードウェアの制限に合わせた、デバイス上のLCMを独立して構成し、訓練する機能を備えている。
さらに,グローバルなMOEモデルから多段階の特徴表現を統合したビューアラインド・アテンション(VAA)モジュールを提案する。
予測的視点を明示的に整合させることにより、VAAは、モデルアーキテクチャの不均一性や、オンデバイスLEMとグローバルMOEモデルの間の予測挙動から生じる、伝統的な連邦知識蒸留におけるビューミスマッチ問題を解消する。
業界レベルのMoEモデル(Qwen-MoEとDeepSeek-MoE)と実世界のデータセット(医療と金融)による実験は、DeepFusionが集中型MoEトレーニングに近いパフォーマンスを達成することを実証している。
キーフェデレートされたMoEベースラインと比較して、DeepFusionは通信コストを最大71%削減し、トークンの難易度を最大5.28%改善する。
関連論文リスト
- Closer to Reality: Practical Semi-Supervised Federated Learning for Foundation Model Adaptation [56.36237936346563]
ファンデーションモデル(FM)は顕著な一般化を示すが、下流のタスクに適応する必要がある。
データプライバシー規制のため、クラウドベースのFMはプライベートエッジデータに直接アクセスできない。
エッジデバイスがラベルのない低解像度のデータのみを保持する実践的セミスーパービジョン・フェデレーションラーニング(PSSFL)を導入する。
我々の研究は、フェデレートされたシナリオにおけるスケーラブルでプライバシ保護のFM適応の道を開いた。
論文 参考訳(メタデータ) (2025-08-22T17:47:02Z) - Mosaic: Data-Free Knowledge Distillation via Mixture-of-Experts for Heterogeneous Distributed Environments [8.494154839146622]
Federated Learning(FL)は、クライアントがデータのプライバシを保持しながらモデルを協調的にトレーニングすることを可能にする、分散機械学習パラダイムである。
異種分散環境に適した新しいデータフリーな知識蒸留フレームワークであるMosaicを提案する。
Mosaicは、専門知識に基づいてクライアントモデルからMixture-of-Experts(MoE)を作成し、生成されたデータを使用してグローバルモデルに蒸留する。
論文 参考訳(メタデータ) (2025-05-26T08:52:49Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis [62.31018417955254]
DeepMLFは、深層融合に適した学習可能なトークンを持つ新しいマルチモーダル言語モデルである。
以上の結果から,より深層核融合により,既存のアプローチよりも優れた核融合深度 (5-7) が得られることが確認された。
論文 参考訳(メタデータ) (2025-04-15T11:28:02Z) - GeFL: Model-Agnostic Federated Learning with Generative Models [3.4546761246181696]
Federated Learning(FL)は、ローカルデータを共有せずにクライアント間で協調学習を可能にする分散トレーニングパラダイムである。
本稿では,ジェネレーティブ・モデル支援フェデレーション・ラーニング(GeFL)を提案する。
論文 参考訳(メタデータ) (2024-12-24T14:39:47Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - FedMoE: Personalized Federated Learning via Heterogeneous Mixture of Experts [4.412721048192925]
我々は、データ不均一性に対処するための効率的パーソナライズされたFederated LearningフレームワークであるFedMoEを紹介する。
FedMoEは2つの微調整段階から構成されており、第1段階では、観測されたアクティベーションパターンに基づいて探索を行うことで問題を単純化する。
第2段階では、これらのサブモデルはさらなるトレーニングのためにクライアントに配布され、サーバ集約のために返される。
論文 参考訳(メタデータ) (2024-08-21T03:16:12Z) - LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training [21.359073227913303]
大規模な環境でのMoEのスクラッチからのトレーニングは、依然としてデータ不足と不安定な問題に悩まされている。
この制限により、既存の高密度大言語モデルからMoEモデルを構築することを検討する。
我々のLLaMA-MoEモデルは、同様のアクティベーションパラメータを含む高密度モデルよりも著しく優れている。
論文 参考訳(メタデータ) (2024-06-24T11:43:07Z) - subMFL: Compatiple subModel Generation for Federated Learning in Device Heterogenous Environment [0.2796197251957244]
フェデレートラーニング(FL)は、分散デバイスと異種デバイスを持つシステムで一般的に用いられる。
計算能力の異なる異種デバイスをFLプロセスに参加可能なモデル圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:49:34Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Federated Learning and Meta Learning: Approaches, Applications, and
Directions [94.68423258028285]
本稿では,FL,メタラーニング,フェデレーションメタラーニング(FedMeta)について概観する。
他のチュートリアルと異なり、私たちの目標はFL、メタラーニング、FedMetaの方法論をどのように設計、最適化、進化させ、無線ネットワーク上で応用するかを探ることです。
論文 参考訳(メタデータ) (2022-10-24T10:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。