論文の概要: Mixture-of-Clustered-Experts: Advancing Expert Specialization and Generalization in Instruction Tuning
- arxiv url: http://arxiv.org/abs/2509.10513v1
- Date: Wed, 03 Sep 2025 07:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.77113
- Title: Mixture-of-Clustered-Experts: Advancing Expert Specialization and Generalization in Instruction Tuning
- Title(参考訳): ミキチャー・オブ・クラスタ化-専門家のスペシャライゼーションとインストラクション・チューニングの一般化の促進
- Authors: Sugyeong Eo, Jungjun Lee, Chanjun Park, Heuiseok Lim,
- Abstract要約: そこで本稿では,Mixture-of-Clustered-Experts (MoCE) を提案する。
メカニズムの第1段階はシーケンスレベルの特徴に基づいたエキスパートグループルーティングを実行し、第2段階はトークンレベルでグループ内のトップ$kのエキスパートを起動する。
我々は、MoCEを一連のベンチマークで評価し、強力なベースラインよりも一貫した優位性と拡張された一般化能力を示す。
- 参考スコア(独自算出の注目度): 30.804111793049938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A sparse Mixture-of-Experts (MoE) architecture has emerged as a highly scalable solution by conditionally activating sub-modules without a proportional increase in computational costs. However, improving expert specialization to enhance performance and generalization remains a challenge for MoE, especially in instruction tuning scenarios characterized by significant input heterogeneity. In this work, we propose the Mixture-of-Clustered-Experts (MoCE) to address this limitation through a dual-stage routing mechanism. The first stage in the mechanism performs expert group routing based on sequence-level features, while the second stage activates the top-$k$ experts within the group at the token level. This approach enables the effective partitioning of heterogeneous inputs based on their knowledge requirements, encouraging expert group specialization while maintaining the advantages of token-level routing. We evaluate MoCE across a comprehensive set of benchmarks, demonstrating its consistent superiority over strong baselines and its enhanced generalization capabilities. Detailed analysis further highlights the robustness and effectiveness of MoCE.
- Abstract(参考訳): スパース・ミックス・オブ・エクササイズ(MoE)アーキテクチャは、計算コストの比例的な増加を伴わない条件付きサブモジュールの活性化によって、高度にスケーラブルなソリューションとして登場した。
しかし、特に入力の不均一性を特徴とする命令チューニングシナリオにおいて、性能の向上と一般化のために専門家の専門化を改善することは、MoEにとって依然として課題である。
本研究では,Mixture-of-Clustered-Experts (MoCE) を提案する。
メカニズムの第1段階はシーケンスレベルの特徴に基づいたエキスパートグループルーティングを実行し、第2段階はトークンレベルでグループ内のトップ$kのエキスパートを起動する。
このアプローチにより、知識要求に基づいて異種入力を効果的に分割し、トークンレベルのルーティングの利点を維持しつつ、専門家グループの専門化を促進することができる。
我々は、MoCEを一連のベンチマークで評価し、強力なベースラインよりも一貫した優位性と拡張された一般化能力を示す。
詳細な分析は、MoCEの堅牢性と有効性をさらに強調する。
関連論文リスト
- MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models [61.89384981175277]
ローランド適応 (LoRA) とミックスオブエキスパート (MoE) を統合するための固有テキストbfMixture-of-Adapters (MoA) アプローチを提案する。
実験結果から, 不均一なMoAは均一なMoE-LoRA法よりも性能およびパラメータ効率が優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T09:54:19Z) - Advancing Expert Specialization for Better MoE [22.570561334474252]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models [24.64757529640278]
クラスタ駆動のExpert Pruning(C-Prune)は、大規模言語モデルの適応的なタスク固有圧縮のための新しい2段階のフレームワークである。
C-Pruneはレイヤワイドの専門家クラスタリングを通じて動作し、各MoE層内で機能的に類似した専門家をグループ化する。
複数のMoEモデルとベンチマークの広範な実験を通じてC-Pruneを検証する。
論文 参考訳(メタデータ) (2025-04-10T14:46:26Z) - Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
本研究では,大規模MoEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
DeepSeek-R1とDeepSeek-V3-0324の実験は、我々の手法が同じメモリ予算の下で同等の性能と2.99タイムのスループットを達成できることを示した。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [14.858134039539697]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。