論文の概要: The power of fine-grained experts: Granularity boosts expressivity in Mixture of Experts
- arxiv url: http://arxiv.org/abs/2505.06839v1
- Date: Sun, 11 May 2025 04:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.065516
- Title: The power of fine-grained experts: Granularity boosts expressivity in Mixture of Experts
- Title(参考訳): きめ細かい専門家の力--グラニュラリティは専門家の混合における表現力を高める
- Authors: Enric Boix-Adsera, Philippe Rigollet,
- Abstract要約: 本稿では,フロンティアモデルアーキテクチャにおける活動的専門家数,すなわち粒度の影響について検討する。
この設計パラメータに基づくネットワーク表現率の指数関数的分離を証明し、モデルがより高い粒度の恩恵を受けることを示唆する。
- 参考スコア(独自算出の注目度): 6.892193480589255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) layers are increasingly central to frontier model architectures. By selectively activating parameters, they reduce computational cost while scaling total parameter count. This paper investigates the impact of the number of active experts, termed granularity, comparing architectures with many (e.g., 8 per layer in DeepSeek) to those with fewer (e.g., 1 per layer in Llama-4 models). We prove an exponential separation in network expressivity based on this design parameter, suggesting that models benefit from higher granularity. Experimental results corroborate our theoretical findings and illustrate this separation.
- Abstract(参考訳): Mixture-of-Experts (MoE)層はますますフロンティアモデルアーキテクチャの中心になっている。
パラメータを選択的に活性化することにより、総パラメータ数をスケーリングしながら計算コストを削減できる。
本稿では,多数のアーキテクチャ(DeepSeekでは1層あたり8層)と少ない(Llama-4モデルでは1層あたり1層あたり1層)のアーキテクチャと比較して,粒度と呼ばれるアクティブな専門家数の影響について検討する。
この設計パラメータに基づくネットワーク表現率の指数関数的分離を証明し、モデルがより高い粒度の恩恵を受けることを示唆する。
実験結果は理論的な知見とこの分離を裏付けるものである。
関連論文リスト
- Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models [24.64757529640278]
クラスタ駆動のExpert Pruning(C-Prune)は、大規模言語モデルの適応的なタスク固有圧縮のための新しい2段階のフレームワークである。
C-Pruneはレイヤワイドの専門家クラスタリングを通じて動作し、各MoE層内で機能的に類似した専門家をグループ化する。
複数のMoEモデルとベンチマークの広範な実験を通じてC-Pruneを検証する。
論文 参考訳(メタデータ) (2025-04-10T14:46:26Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - Finedeep: Mitigating Sparse Activation in Dense LLMs via Multi-Layer Fine-Grained Experts [82.74439280067492]
ファインディープ(英: Finedeep)は、高密度モデルのための、きめ細かいきめ細かなアーキテクチャである。
我々のフレームワークは、従来の高密度モデルのフィードフォワードニューラルネットワーク層を小さな専門家に分割する。
各専門家の貢献度を決定するための新しいルーティング機構が提案されている。
論文 参考訳(メタデータ) (2025-02-18T15:09:58Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Mixture of A Million Experts [1.240096657086732]
本稿では,多彩な専門家プールからのスパース検索に製品キー技術を利用する新しい層設計PEERを紹介する。
言語モデリングタスクの実験では、PEER層が高密度FFWや粗粒のMoEよりもパフォーマンス・計算トレードオフの点で優れていることが示された。
論文 参考訳(メタデータ) (2024-07-04T20:59:20Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - A Novel Architecture Slimming Method for Network Pruning and Knowledge
Distillation [30.39128740788747]
本稿では,レイヤ構成プロセスを自動化するアーキテクチャスリム化手法を提案する。
本手法は, 浸漬, 蒸留後, ベースラインよりも顕著な性能向上を示した。
驚くべきことに、結果として生じる層ワイド圧縮速度は、既存の研究で見られる層感度と一致している。
論文 参考訳(メタデータ) (2022-02-21T12:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。