論文の概要: Retraining-Free Merging of Sparse MoE via Hierarchical Clustering
- arxiv url: http://arxiv.org/abs/2410.08589v2
- Date: Sat, 01 Feb 2025 10:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:04:17.580900
- Title: Retraining-Free Merging of Sparse MoE via Hierarchical Clustering
- Title(参考訳): 階層クラスタリングによるスパースMoEのリトレーニングフリーマージ
- Authors: I-Chun Chen, Hsu-Shen Liu, Wei-Fang Sun, Chen-Hao Chao, Yen-Chang Hsu, Chun-Yi Lee,
- Abstract要約: 本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
- 参考スコア(独自算出の注目度): 14.858134039539697
- License:
- Abstract: Sparse Mixture-of-Experts (SMoE) models represent a significant advancement in large language model (LLM) development through their efficient parameter utilization. These models achieve substantial performance improvements at reduced inference costs. However, the deployment of SMoE models faces constraints from extensive memory requirements of expert components in resource-limited environments. To address these limitations, this paper introduces Hierarchical Clustering for Sparsely activated Mixture of Experts (HC-SMoE), a task-agnostic expert merging framework for parameter reduction without retraining. HC-SMoE introduces a novel hierarchical clustering approach based on expert outputs to ensure merging robustness independent of routing decisions. The proposed output-based clustering method enables effective capture of functional relationships between experts for large-scale architectures. We provide theoretical analysis and comprehensive evaluations across multiple zero-shot language tasks to demonstrate HC-SMoE's effectiveness in state-of-the-art models including Qwen and Mixtral. The experimental results validate HC-SMoE's superior performance and practical applicability for real-world deployments.
- Abstract(参考訳): SMOE(Sparse Mixture-of-Experts)モデルは,その効率的なパラメータ利用を通じて,大規模言語モデル(LLM)の開発において重要な進歩を示す。
これらのモデルは推論コストの低減で大幅な性能向上を実現している。
しかし、SMoEモデルの展開は、リソース制限された環境でのエキスパートコンポーネントの広範なメモリ要件からの制約に直面している。
これらの制約に対処するために,タスクに依存しないパラメータリダクションフレームワークであるHyerarchical Clustering for Sparsely activated Mixture of Experts (HC-SMoE)を紹介する。
HC-SMoEは、ルーティング決定に依存しないマージロバスト性を保証するために、エキスパート出力に基づく新しい階層的クラスタリングアプローチを導入している。
提案手法により,大規模アーキテクチャの専門家間の機能的関係を効果的に把握することができる。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と包括的評価を行う。
実験により、HC-SMoEは実世界の展開に優れた性能と実用的な適用性を示した。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs [45.20965298945085]
本稿では,パラメータ干渉を緩和する手法,ルーティング,アーキテクチャの異なる専門家をマージするための新しい手法など,新たなMoEマージ手法を提案する。
複数の領域にわたる実験により,提案手法の有効性,微調整コストの低減,最先端手法の性能向上,MoEマージの適用性の向上が示された。
論文 参考訳(メタデータ) (2025-02-03T02:34:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - SimSMoE: Solving Representational Collapse via Similarity Measure [34.20340688374905]
SMOE(Sparse mixed of experts)は、計算コストを一定に保ちながら、大きな言語モデルをスケールするための効果的なアプローチとして登場した。
本稿では、ニューラルネットワークアルゴリズムの新たな類似性であるSimSMoE(Simisity-based Sparse Mixture of Experts)を提案する。
論文 参考訳(メタデータ) (2024-06-22T16:10:45Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。