論文の概要: RepetitionCurse: Measuring and Understanding Router Imbalance in Mixture-of-Experts LLMs under DoS Stress
- arxiv url: http://arxiv.org/abs/2512.23995v1
- Date: Tue, 30 Dec 2025 05:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.289359
- Title: RepetitionCurse: Measuring and Understanding Router Imbalance in Mixture-of-Experts LLMs under DoS Stress
- Title(参考訳): 繰り返しコース:DoS応力下でのLLMのルータ不均衡の測定と理解
- Authors: Ruixuan Huang, Qingyue Wang, Hantao Huang, Yudong Gao, Dong Chen, Shuai Wang, Wei Wang,
- Abstract要約: 分配不能のプロンプトはルーティング戦略を操作でき、特定のデバイス上で計算ボトルネックを発生させ、他のデバイスにアイドルを強いる。
この脆弱性を悪用するための低コストなブラックボックス戦略であるRepetitionCurseを提案する。
- 参考スコア(独自算出の注目度): 16.010076395422264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts architectures have become the standard for scaling large language models due to their superior parameter efficiency. To accommodate the growing number of experts in practice, modern inference systems commonly adopt expert parallelism to distribute experts across devices. However, the absence of explicit load balancing constraints during inference allows adversarial inputs to trigger severe routing concentration. We demonstrate that out-of-distribution prompts can manipulate the routing strategy such that all tokens are consistently routed to the same set of top-$k$ experts, which creates computational bottlenecks on certain devices while forcing others to idle. This converts an efficiency mechanism into a denial-of-service attack vector, leading to violations of service-level agreements for time to first token. We propose RepetitionCurse, a low-cost black-box strategy to exploit this vulnerability. By identifying a universal flaw in MoE router behavior, RepetitionCurse constructs adversarial prompts using simple repetitive token patterns in a model-agnostic manner. On widely deployed MoE models like Mixtral-8x7B, our method increases end-to-end inference latency by 3.063x, degrading service availability significantly.
- Abstract(参考訳): パラメータ効率が優れているため、Mixture-of-Expertsアーキテクチャは大規模言語モデルのスケーリングの標準となっている。
実際の専門家の増加に対応するため、現代の推論システムでは、専門家をデバイスに分散させるために、専門家の並列性を採用するのが一般的である。
しかし、推論中に明示的な負荷バランスの制約がないため、逆入力は厳密なルーティング集中を引き起こす。
配当不要のプロンプトがルーティング戦略を操作でき、すべてのトークンが、特定のデバイス上で計算ボトルネックを発生させ、他のデバイスにアイドルを強いるような、同じトップ$のエキスパートセットに一貫したルーティングが可能であることを実証する。
これにより、効率性メカニズムをDoS攻撃ベクタに変換し、サービスレベルの合意違反につながる。
この脆弱性を悪用するための低コストなブラックボックス戦略であるRepetitionCurseを提案する。
MoEルータの挙動の普遍的な欠陥を特定することで、RepetitionCurseはモデルに依存しない単純な反復トークンパターンを使用して、逆プロンプトを構成する。
Mixtral-8x7Bのような広くデプロイされたMoEモデルでは、エンドツーエンドの推論遅延が3.063倍に増加し、サービスの可用性が大幅に低下する。
関連論文リスト
- Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - From Score Distributions to Balance: Plug-and-Play Mixture-of-Experts Routing [52.01745035243826]
Mixture-of-Experts (MoE)モデルは、各トークンを専門家のサブセットにルーティングすることで、パラメータキャパシティをスケールすることができる。
条件付きルーティングは、推論メモリの負荷をシフトし、デバイスごとに専門家の数を制限する。
本稿では,精度を保ちながら負荷のバランスをとるプラグイン・アンド・プレイ型推論時ルーティングアルゴリズムLASERを提案する。
論文 参考訳(メタデータ) (2025-09-29T16:29:17Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - Load Balancing Mixture of Experts with Similarity Preserving Routers [30.279616888339543]
Sparse Mixture of Experts (MoE)モデルは、大規模なニューラルネットワークをトレーニングするためのスケーラブルで効率的なアーキテクチャを提供する。
トークン単位のリレーショナル構造を保持する新しいロードバランシング損失を導入する。
その結果, ルータの損失は36%, 収束速度は36%向上し, 冗長性が低下することがわかった。
論文 参考訳(メタデータ) (2025-06-16T22:22:59Z) - Towards Adversarial Robustness of Model-Level Mixture-of-Experts Architectures for Semantic Segmentation [11.311414617703308]
都市交通シーンと高速道路交通シーンのセマンティックセグメンテーションにおけるMoEsの脆弱性を評価する。
多くの場合、MoEsは、インスタンスごとの攻撃や汎用的なホワイトボックス攻撃に対してより堅牢であり、転送攻撃に耐えられることを示す。
論文 参考訳(メタデータ) (2024-12-16T09:49:59Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - Gating Dropout: Communication-efficient Regularization for Sparsely
Activated Transformers [78.77361169167149]
本稿では,トークンがゲーティングネットワークを無視してローカルマシンに留まることを可能にするEmphGating Dropoutを提案する。
従来のドロップアウトと同様に、Gating Dropoutはトレーニング中に正規化効果があり、その結果、一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-28T05:12:43Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。