論文の概要: Robust Heterogeneous Analog-Digital Computing for Mixture-of-Experts Models with Theoretical Generalization Guarantees
- arxiv url: http://arxiv.org/abs/2603.02633v1
- Date: Tue, 03 Mar 2026 06:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.660346
- Title: Robust Heterogeneous Analog-Digital Computing for Mixture-of-Experts Models with Theoretical Generalization Guarantees
- Title(参考訳): 理論一般化保証付き混成実験モデルのロバスト異種アナログディジタル計算
- Authors: Mohammed Nowaz Rabbani Chowdhury, Hsinyu Tsai, Geoffrey W. Burr, Kaoutar El Maghraoui, Liu Liu, Meng Wang,
- Abstract要約: Sparse Mixture-of-Experts (MoE) モデルは入力あたりのエキスパートの小さなサブセットのみを活性化するが、その膨大なパラメータ数は推論中にかなりのメモリとエネルギーの非効率をもたらす。
本稿では,AIMCハードウェア上で多くの専門家が実行される一方で,ノイズに敏感な専門家をデジタル的に計算する,リトレーニングフリーな異種フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.747585022756711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Mixture-of-Experts (MoE) models enable efficient scalability by activating only a small sub-set of experts per input, yet their massive parameter counts lead to substantial memory and energy inefficiency during inference. Analog in-memory computing (AIMC) offers a promising solution by eliminating frequent data movement between memory and compute units. However, mitigating hardware nonidealities of AIMC typically requires noise-aware retraining, which is infeasible for large MoE models. In this paper, we propose a retraining-free heterogeneous computation framework in which noise-sensitive experts, which are provably identifiable by their maximum neuron norm, are computed digitally while the majority of the experts are executed on AIMC hardware. We further assign densely activated modules, such as attention layers, to digital computation due to their high noise sensitivity despite comprising a small fraction of parameters. Extensive experiments on large MoE language models, including DeepSeekMoE and OLMoE, across multiple benchmark tasks validate the robustness of our approach in maintaining accuracy under analog nonidealities.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE) モデルは、入力あたりのエキスパートの小さなサブセットのみを活性化することで、効率的なスケーラビリティを実現するが、その膨大なパラメータカウントは、推論中にかなりのメモリとエネルギーの非効率をもたらす。
アナログインメモリコンピューティング(AIMC)は、メモリと計算ユニット間の頻繁なデータ移動を排除することで、有望なソリューションを提供する。
しかし、AIMCのハードウェア非理想性を緩和するには、大きなMoEモデルでは不可能なノイズアウェアなリトレーニングが必要となる。
本稿では,AIMCハードウェア上で多くの専門家が実行されている間,その最大ニューロンノルムによって確実に識別可能なノイズ感受性の専門家をディジタル的に計算する,リトレーニング不要な異種計算フレームワークを提案する。
さらに,注目層などの高密度に活性化されたモジュールを,少数のパラメータを含むにもかかわらず高い雑音感度でディジタル計算に割り当てる。
複数のベンチマークタスクにわたるDeepSeekMoEやOLMoEを含む大規模なMoE言語モデルに対する大規模な実験は、アナログ非理想性の下での精度維持における我々のアプローチの堅牢性を検証する。
関連論文リスト
- Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization [0.0]
画像分類設定におけるMoEの挙動について検討し、予測性能、専門家の活用、一般化に着目した。
我々は、CIFAR10データセット上の密度、SoftMoE、SparseMoE分類器を、同等のモデルキャパシティで比較する。
どちらのMoE変種も、正規化によるバランスの取れた専門家の利用を維持しながら、密度の高いベースラインよりもわずかに高い検証精度を達成する。
DenseとSparseMoEは、全てのモデルが同等の一般化性能を達成しているにもかかわらず、同様の曲率状態にあるのに対して、SoftMoEはこれらの指標によってよりシャープさを示す。
論文 参考訳(メタデータ) (2026-01-21T14:22:25Z) - Robustness of Mixtures of Experts to Feature Noise [25.939504714529807]
スパース専門家のアクティベーションがノイズフィルタとして機能することを示す。
スパース専門家のアクティベーションがノイズフィルタとして機能することを示す。
合成データと実世界の言語タスクに関する実証的な結果が理論的洞察を裏付ける。
論文 参考訳(メタデータ) (2026-01-21T09:15:48Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Designing DNNs for a trade-off between robustness and processing performance in embedded devices [1.474723404975345]
機械学習ベースの組み込みシステムは、ソフトエラーに対して堅牢である必要がある。
本稿では,摂動に対するモデルロバスト性を改善するために有界AFを用いた場合の適合性について検討する。
自律運転におけるシーン理解のためのハイパースペクトル画像のセマンティックセグメンテーションタスクの実行を目的としたエンコーダ・デコーダの完全畳み込みモデルの解析を行う。
論文 参考訳(メタデータ) (2024-12-04T19:34:33Z) - Synergistic Development of Perovskite Memristors and Algorithms for Robust Analog Computing [53.77822620185878]
本稿では,ペロブスカイト・メムリスタの製作を同時に最適化し,ロバストなアナログDNNを開発するための相乗的手法を提案する。
BO誘導ノイズインジェクションを利用したトレーニング戦略であるBayesMultiを開発した。
我々の統合されたアプローチは、より深くより広いネットワークでのアナログコンピューティングの使用を可能にし、最大100倍の改善を実現します。
論文 参考訳(メタデータ) (2024-12-03T19:20:08Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。