論文の概要: Federated Fine-Tuning of Sparsely-Activated Large Language Models on Resource-Constrained Devices
- arxiv url: http://arxiv.org/abs/2508.19078v1
- Date: Tue, 26 Aug 2025 14:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 16:59:50.545962
- Title: Federated Fine-Tuning of Sparsely-Activated Large Language Models on Resource-Constrained Devices
- Title(参考訳): 資源制約デバイス上での疎活性化大言語モデルのフェデレーション微調整
- Authors: Fahao Chen, Jie Wan, Peng Li, Zhou Su, Dongxiao Yu,
- Abstract要約: 大規模言語モデル (LLM) のファインチューニングは, 膨大な計算量と参加者の資源制約のため, 困難である。
制約コンピューティングリソースの参加者間でMoEベースのLLMの微調整を可能にするシステムであるFLUXを提案する。
FLUXは既存の手法よりも優れており、時間と精度で最大4.75倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 41.84571097603175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Federated fine-tuning of Mixture-of-Experts (MoE)-based large language models (LLMs) is challenging due to their massive computational requirements and the resource constraints of participants. Existing working attempts to fill this gap through model quantization, computation offloading, or expert pruning. However, they cannot achieve desired performance due to impractical system assumptions and a lack of consideration for MoE-specific characteristics. In this paper, we propose FLUX, a system designed to enable federated fine-tuning of MoE-based LLMs across participants with constrained computing resources (e.g., consumer-grade GPUs), aiming to minimize time-to-accuracy. FLUX introduces three key innovations: (1) quantization-based local profiling to estimate expert activation with minimal overhead, (2) adaptive layer-aware expert merging to reduce resource consumption while preserving accuracy, and (3) dynamic expert role assignment using an exploration-exploitation strategy to balance tuning and non-tuning experts. Extensive experiments on LLaMA-MoE and DeepSeek-MoE with multiple benchmark datasets demonstrate that FLUX significantly outperforms existing methods, achieving up to 4.75X speedup in time-to-accuracy.
- Abstract(参考訳): LLM(Mixture-of-Experts)をベースとした大規模言語モデル(LLM)のファインタニングは,その膨大な計算量と参加者のリソース制約のために困難である。
既存の作業は、モデル量子化、計算オフロード、エキスパートプルーニングを通じて、このギャップを埋めようとしている。
しかし、非現実的なシステム仮定とMoE固有の特性に対する考慮の欠如により、望ましい性能を達成できない。
本稿では,制約コンピューティングリソース(例えば,コンシューマグレードのGPU)の参加者に対して,MoEベースのLEMをフェデレートした微調整を可能にするシステムであるFLUXを提案する。
FLUXは,(1)最小オーバーヘッドで専門家の活性化を推定するための量子化に基づく局所プロファイリング,(2)正確性を保ちながら資源消費を減らすための適応層認識専門家の融合,(3)チューニングと非チューニング専門家のバランスをとるための探索-探索戦略を用いた動的専門家の役割割り当て,という3つの重要なイノベーションを導入している。
複数のベンチマークデータセットを用いたLLaMA-MoEとDeepSeek-MoEの大規模な実験は、FLUXが既存の手法を著しく上回り、時間と精度で最大4.75倍のスピードアップを達成することを示した。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。