Fugu-MT 論文翻訳(概要): ROMER: Expert Replacement and Router Calibration for Robust MoE LLMs on Analog Compute-in-Memory Systems

論文の概要: ROMER: Expert Replacement and Router Calibration for Robust MoE LLMs on Analog Compute-in-Memory Systems

arxiv url: http://arxiv.org/abs/2605.11800v1
Date: Tue, 12 May 2026 08:57:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.734777
Title: ROMER: Expert Replacement and Router Calibration for Robust MoE LLMs on Analog Compute-in-Memory Systems
Title（参考訳）: ROMER:アナログ・コンピュート・イン・メモリシステムにおけるロバストMOE LLMのエキスパートリプレースとルータ校正
Authors: Wenyong Zhou, Yuannuo Feng, Yizhe Chen, Taiqiang Wu, Wendong Xu, Wenbo Qi, Zhengwu Liu, Wang Kang, Ngai Wong,
Abstract要約: 大規模言語モデル (LLM) とMix-of-experts (MoE) アーキテクチャは、トークンごとに専門家のサブセットをわずかに活性化することで、優れたスケーラビリティを実現する。ハードウェアノイズは、専門家の負荷バランスを著しく破壊し、クリーンにトレーニングされたルーティング決定を常に最適にレンダリングする。負荷バランスを回復するために、未活性化の専門家を高周波で置き換えるポストトレーニング後の校正フレームワークROMERを提案し、パーセンタイルベースの正規化によりルータロジットを再調整し、ノイズ下でのルーティングを安定化させる。
参考スコア（独自算出の注目度）: 18.82675970708232
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) with mixture-of-experts (MoE) architectures achieve remarkable scalability by sparsely activating a subset of experts per token, yet their frequent expert switching creates memory bandwidth bottlenecks that compute-in-memory (CIM) architectures are well-suited to mitigate. However, analog CIM systems suffer from inherent hardware imperfections that perturb stored weights, and its negative impact on MoE-based LLMs in noisy CIM environments remains unexplored. In this work, we present the first systematic investigation of MoE-based LLMs under noise model calibrated with real chip measurements, revealing that hardware noise critically disrupts expert load balance and renders clean-trained routing decisions consistently suboptimal. Based on these findings, we propose ROMER, a post-training calibration framework that (1) replaces underactivated experts with high-frequency ones to restore load balance, and (2) recalibrates router logits via percentile-based normalization to stabilize routing under noise. Extensive experiments across multiple benchmarks demonstrate that ROMER achieves up to 58.6\%, 58.8\%, and 59.8\% reduction in perplexity under real-chip noise conditions for DeepSeek-MoE, Qwen-MoE, and OLMoE, respectively, establishing its effectiveness and generalizability across diverse MoE architectures.
Abstract（参考訳）: 大規模言語モデル (LLM) とMix-of-experts (MoE) アーキテクチャは、トークンごとに専門家のサブセットをわずかに活性化することで、優れたスケーラビリティを実現するが、その頻繁な専門家の切り替えは、メモリ帯域幅のボトルネックを生成し、CIM(Computer-in-Memory)アーキテクチャが緩和するのに適している。しかし、アナログCIMシステムは、記憶されている重みを摂動させる固有のハードウェア欠陥に悩まされており、ノイズの多いCIM環境でのMoEベースのLLMに対する負の影響は未解明のままである。そこで本研究では,MoEをベースとしたLCMを実測値で校正し,ハードウェアノイズが専門家の負荷バランスを著しく損なうこと,クリーントレーニングされたルーティング決定を常に最適に行うことを明らかにする。これらの知見に基づいて,(1)未活性化専門家を高周波で置き換えて負荷バランスを回復する学習後校正フレームワークROMERを提案し,(2)パーセンタイルベース正規化によるルータロジットの校正を行い,ノイズ下でのルーティングを安定化させる。複数のベンチマークにわたる大規模な実験により、ROMERはDeepSeek-MoE、Qwen-MoE、OLMoEの実際のチップノイズ条件下でのパープレキシティの最大58.6\%、58.8\%、59.8\%の低減を実現し、様々なMoEアーキテクチャにおけるその有効性と一般化性を確立した。

関連論文リスト

Robust Heterogeneous Analog-Digital Computing for Mixture-of-Experts Models with Theoretical Generalization Guarantees [12.747585022756711]
Sparse Mixture-of-Experts (MoE) モデルは入力あたりのエキスパートの小さなサブセットのみを活性化するが、その膨大なパラメータ数は推論中にかなりのメモリとエネルギーの非効率をもたらす。本稿では,AIMCハードウェア上で多くの専門家が実行される一方で,ノイズに敏感な専門家をデジタル的に計算する,リトレーニングフリーな異種フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-03T06:00:57Z)
A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。 SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文参考訳（メタデータ） (2026-02-23T15:11:16Z)
Effective MoE-based LLM Compression by Exploiting Heterogeneous Inter-Group Experts Routing Frequency and Information Density [30.94369556247692]
Mixture-of-Experts (MoE) ベースのLarge Language Models (LLM) は優れたパフォーマンスを実現している。複数の専門家ネットワークを格納することによる大量のメモリオーバーヘッドは、実践的なデプロイメントを著しく妨げます。我々は、不均一なルーティング周波数と情報密度を利用して、MoE圧縮のための効果的なフレームワークRFID-MoEを提案する。
論文参考訳（メタデータ） (2026-02-10T01:24:28Z)
Extending Straight-Through Estimation for Robust Neural Networks on Analog CIM Hardware [5.100973962435092]
本稿では,アナログ・コンピュート・イン・メモリ(CIM)システムのためのノイズアウェア・トレーニング手法を提案する。我々は、後方勾配計算から前方雑音シミュレーションを分離し、より正確だが計算上は難解なノイズモデリングによる雑音認識訓練を可能にする。本フレームワークは,画像分類の精度を最大5.3%向上し,テキスト生成における0.72パープレキシティ低減を実現し,トレーニング時間の2.2$times$ Speedupを実現し,ピークメモリ使用率を37.9%削減した。
論文参考訳（メタデータ） (2025-08-16T06:53:44Z)
MoE-Gyro: Self-Supervised Over-Range Reconstruction and Denoising for MEMS Gyroscopes [3.305383548025311]
MoE-Gyroは、オーバレンジ信号の再構築とノイズ抑圧を同時に行うために設計された、自己監督型のフレームワークである。また,MoE-Gyroは測定範囲を450deg/sから1500deg/sに大きく拡張し,バイアス不安定度を98.4%低減し,最先端性能を実現した。
論文参考訳（メタデータ） (2025-05-27T13:18:26Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文参考訳（メタデータ） (2024-04-07T22:13:43Z)
Modal Regression based Structured Low-rank Matrix Recovery for Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文参考訳（メタデータ） (2020-03-22T03:57:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。