論文の概要: Mixture of Neuron Experts
- arxiv url: http://arxiv.org/abs/2510.05781v1
- Date: Tue, 07 Oct 2025 10:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.215129
- Title: Mixture of Neuron Experts
- Title(参考訳): 神経専門家の混在
- Authors: Runxi Cheng, Yuchen Guan, Yucheng Ding, Qingguo Hu, Yongxian Wei, Chun Yuan, Yelong Shen, Weizhu Chen, Yeyun Gong,
- Abstract要約: ゲートプロジェクションからのアクティベーションの大きさによってパラメータをランク付けし、アクティベートされたサブセットを段階的にプーンする。
我々は、専門家をニューロン粒状MoEに分解し、その活性化値を可視化し、ほとんどのニューロンの活性化がほぼゼロであることを示した。
MoNEは、各専門家に単純なトップk選択を適用するだけで、無視できるレイテンシを発生させ、追加のルーティングパラメータや専門家間通信を必要としないことで、ニューロン-粒界の専門家選択を実現する。
- 参考スコア(独自算出の注目度): 102.18172808298239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we first explore whether the parameters activated by the MoE layer remain highly sparse at inference. We perform a sparsification study on several representative MoE models. For each expert, we rank parameters by the magnitude of their activations from the gate projection and progressively prune the activated subset. Pruning up to 60% of parameters within that subset causes only negligible task-performance degradation; substantial drops occur only after more than 90% are removed. We further decompose experts into neuron-granular MoE and visualize their activation values, finding that most neuron activations are near zero. This observation motivates us to select only high-activation neuron experts during pretraining. Based on this insight, we propose Mixture of Neuron Experts (MoNE). MoNE achieves neuron-granular expert selection by only applying a simple top-k selection within each expert, incurs negligible latency, and requires no additional routing parameters or inter-expert communication. Extensive experiments demonstrate that MoNE matches traditional MoE performance while activating only 50% of the MoE-layer parameters, and it consistently outperforms traditional MoE when compared at equal numbers of activated parameters. These results suggest that MoNE is a practical approach to improving parameter utilization and inference efficiency in MoE-like models.
- Abstract(参考訳): そこで本研究では,MoE層によって活性化されるパラメータが,推論時に非常にスパースであるかどうかを考察する。
我々はいくつかの代表的MoEモデルについてスパーシフィケーション研究を行う。
各専門家に対して、ゲートプロジェクションからのアクティベーションの大きさによってパラメータをランク付けし、アクティベートされたサブセットを段階的にプルーする。
そのサブセット内で最大60%のパラメータをプルーニングすると、無視できるタスクパフォーマンスの劣化しか起こらない。
さらに、専門家をニューロン粒状MoEに分解し、その活性化値を可視化し、ほとんどのニューロンの活性化がほぼゼロであることを示した。
この観察は、プレトレーニング中に高活性化ニューロン専門家のみを選択する動機となる。
この知見に基づき、我々はMixture of Neuron Experts (MoNE)を提案する。
MoNEは、各専門家に単純なトップk選択を適用するだけで、無視できるレイテンシを発生させ、追加のルーティングパラメータや専門家間通信を必要としないことで、ニューロン-粒界の専門家選択を実現する。
大規模な実験では、MoNEは従来のMoE性能と一致し、MoE層のパラメータの50%しか活性化せず、同じ数の活性パラメータと比較すると、常にMoEよりも優れていた。
これらの結果から,MoEモデルにおけるパラメータ利用率と推論効率を改善するための実践的手法であることが示唆された。
関連論文リスト
- Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - MEPT: Mixture of Expert Prompt Tuning as a Manifold Mapper [75.6582687942241]
本稿では,Mixture of Expert Prompt Tuning (MEPT) を効果的かつ効率的な多様体マッピングフレームワークとして提案する。
MEPTは複数のプロンプト専門家を統合し、多様な非定常データ分布を適応的に学習する。
経験的評価により、MEPTはSuperGLUE上でいくつかの最先端パラメータの効率的なベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-08-31T21:19:25Z) - Kolmogorov-Arnold Networks in Low-Data Regimes: A Comparative Study with Multilayer Perceptrons [2.77390041716769]
Kolmogorov-Arnold Networks (KAN) は、ネットワークエッジ上で直接、高度に柔軟な学習可能なアクティベーション関数を使用する。
kanは学習可能なパラメータの数を大幅に増加させ、データスカース環境での有効性に対する懸念を高めます。
個別化活性化関数はパラメータの緩やかな増加だけで予測精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-09-16T16:56:08Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Let's Focus on Neuron: Neuron-Level Supervised Fine-tuning for Large Language Model [43.107778640669544]
大型言語モデル(LLM)は、様々な行動や役割を示すニューロンで構成されている。
最近の研究によると、全てのニューロンが異なるデータセットで活動しているわけではない。
我々は,パラメータ学習の粒度を個々のニューロンに絞り込む新しいアプローチであるNeFT(Neuron-Level Fine-Tuning)を導入する。
論文 参考訳(メタデータ) (2024-03-18T09:55:01Z) - Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - Magnificent Minified Models [0.360953887026184]
本論文は、大規模なトレーニングニューラルネットワークを「圧縮」し、パラメータやニューロン全体を削除することで、より小さくするタスクを自覚する。
パラメータとニューロン選択の様々な方法を比較する:ドロップアウトベースニューロン損傷推定、ニューロンのマージ、絶対値ベース選択、ランダム選択。
ニューロンレベルのプルーニングでは、スクラッチから再トレーニングを行うことで、実験はずっと良くなりました。
論文 参考訳(メタデータ) (2023-06-16T21:00:44Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。