論文の概要: Retraining-Free Merging of Sparse MoE via Hierarchical Clustering
- arxiv url: http://arxiv.org/abs/2410.08589v2
- Date: Sat, 01 Feb 2025 10:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 15:57:53.260826
- Title: Retraining-Free Merging of Sparse MoE via Hierarchical Clustering
- Title(参考訳): 階層クラスタリングによるスパースMoEのリトレーニングフリーマージ
- Authors: I-Chun Chen, Hsu-Shen Liu, Wei-Fang Sun, Chen-Hao Chao, Yen-Chang Hsu, Chun-Yi Lee,
- Abstract要約: 本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
- 参考スコア(独自算出の注目度): 14.858134039539697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture-of-Experts (SMoE) models represent a significant advancement in large language model (LLM) development through their efficient parameter utilization. These models achieve substantial performance improvements at reduced inference costs. However, the deployment of SMoE models faces constraints from extensive memory requirements of expert components in resource-limited environments. To address these limitations, this paper introduces Hierarchical Clustering for Sparsely activated Mixture of Experts (HC-SMoE), a task-agnostic expert merging framework for parameter reduction without retraining. HC-SMoE introduces a novel hierarchical clustering approach based on expert outputs to ensure merging robustness independent of routing decisions. The proposed output-based clustering method enables effective capture of functional relationships between experts for large-scale architectures. We provide theoretical analysis and comprehensive evaluations across multiple zero-shot language tasks to demonstrate HC-SMoE's effectiveness in state-of-the-art models including Qwen and Mixtral. The experimental results validate HC-SMoE's superior performance and practical applicability for real-world deployments.
- Abstract(参考訳): SMOE(Sparse Mixture-of-Experts)モデルは,その効率的なパラメータ利用を通じて,大規模言語モデル(LLM)の開発において重要な進歩を示す。
これらのモデルは推論コストの低減で大幅な性能向上を実現している。
しかし、SMoEモデルの展開は、リソース制限された環境でのエキスパートコンポーネントの広範なメモリ要件からの制約に直面している。
これらの制約に対処するために,タスクに依存しないパラメータリダクションフレームワークであるHyerarchical Clustering for Sparsely activated Mixture of Experts (HC-SMoE)を紹介する。
HC-SMoEは、ルーティング決定に依存しないマージロバスト性を保証するために、エキスパート出力に基づく新しい階層的クラスタリングアプローチを導入している。
提案手法により,大規模アーキテクチャの専門家間の機能的関係を効果的に把握することができる。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と包括的評価を行う。
実験により、HC-SMoEは実世界の展開に優れた性能と実用的な適用性を示した。
関連論文リスト
- Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models [24.64757529640278]
クラスタ駆動のExpert Pruning(C-Prune)は、大規模言語モデルの適応的なタスク固有圧縮のための新しい2段階のフレームワークである。
C-Pruneはレイヤワイドの専門家クラスタリングを通じて動作し、各MoE層内で機能的に類似した専門家をグループ化する。
複数のMoEモデルとベンチマークの広範な実験を通じてC-Pruneを検証する。
論文 参考訳(メタデータ) (2025-04-10T14:46:26Z) - S'MoRE: Structural Mixture of Residual Experts for LLM Fine-tuning [17.579948649237497]
我々は,LoRAの効率とMoEの柔軟性をシームレスに統合する新しいフレームワークであるResidual Experts (S'MoRE)を提案する。
具体的には、S'MoREはエキスパートウェイトを階層的に低ランクに分解し、多層構造に相互接続した様々な順序の残基を生成する。
我々はS'MoREが従来のMoE(Mixture-of-LoRA)の「構造的柔軟性」を指数的順序で改善することを証明する。
論文 参考訳(メタデータ) (2025-04-08T20:54:00Z) - Beyond Standard MoE: Mixture of Latent Experts for Resource-Efficient Language Models [10.623996218106564]
本稿では,特定の専門家の共有潜在空間へのマッピングを容易にする新しいパラメータ化手法を提案する。
すべてのエキスパート演算は、体系的に2つの主成分に分解される: 共有射影を低次元の潜在空間に分割し、その後専門家固有の変換を行う。
この分解されたアプローチは、パラメータ数と計算要求を大幅に減少させる。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - SimSMoE: Solving Representational Collapse via Similarity Measure [34.20340688374905]
SMOE(Sparse mixed of experts)は、計算コストを一定に保ちながら、大きな言語モデルをスケールするための効果的なアプローチとして登場した。
本稿では、ニューラルネットワークアルゴリズムの新たな類似性であるSimSMoE(Simisity-based Sparse Mixture of Experts)を提案する。
論文 参考訳(メタデータ) (2024-06-22T16:10:45Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。