論文の概要: Diagnosing Overhead in Dispatch Operations: Cross-architecture Observatory
- arxiv url: http://arxiv.org/abs/2605.20982v1
- Date: Wed, 20 May 2026 10:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.616935
- Title: Diagnosing Overhead in Dispatch Operations: Cross-architecture Observatory
- Title(参考訳): 散布作業におけるオーバーヘッド診断:クロスアーキテクチャ観測所
- Authors: Bole Ma, Jan Eitzinger, Harald Koestler, Gerhard Wellein,
- Abstract要約: AlltoAllのディスパッチは、MoEの専門家並列性の主要なボトルネックである。
ワークロードに関する2つの仮定をテストするために、DODOCOを導入します。
EPのスケーリングは、各アーキテクチャの計測可能な範囲内で、専門家ごとの最大/平均トークン比を5%以上変更する。
- 参考スコア(独自算出の注目度): 1.081571058570587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AlltoAll dispatch is the dominant bottleneck of MoE expert parallelism, and the interconnect community has responded with four families of mitigations: predictive sample placement, adaptive expert relayout, hierarchical collectives, and EP-aware topology. All four rest on two assumptions about the workload. The first is that routing imbalance is correctable by the system layer. The second is that the mock-token benchmarks evaluating them faithfully represent production routing. We introduce DODOCO to test both assumptions. We instrument five MoE checkpoints spanning five sequence-mixer designs (DeepSeek-V2-Lite MLA, DeepSeek-MoE-16B MHA, Qwen3-30B GQA, Nemotron-30B Mamba-2, Qwen3.5-35B GDN) under a 5 by 6 grid of data conditions plus a matched EP scan from 4 to 32 ranks on H100s; both assumptions fail. Scaling EP changes the per-expert max/mean token ratio by at most 5% within every architecture's measurable range: the straggler is intrinsic to the routing decision the model makes, not to how its experts land on ranks. Mock tokens overestimate routing Gini by up to a factor of 2.35 and fabricate a batch-size scaling trend that vanishes the moment real text replaces random IDs. A third pattern, unexpected, emerges from the same matrix: the five architectures cleave into two stable bands. MHA and Mamba-2 (data-resilient) drop to Gini 0.105 and 0.150 on wikitext. MLA and GDN (persistently concentrated) stay above 0.24 on every real-text condition and reach 0.29 to 0.38 on mock. GQA is the intermediate case. These bands, not the EP degree or the mock-data profile, are the right workload input to AlltoAll-aware interconnect and dispatch design.
- Abstract(参考訳): AlltoAllディスパッチは、MoEの専門家並列性の主要なボトルネックであり、相互接続コミュニティは、予測的なサンプル配置、適応的な専門家リレーアウト、階層的集合、EP対応トポロジーの4つのファミリーで対応している。
4つとも、ワークロードに関する仮定が2つあります。
1つ目は、ルーティングの不均衡がシステム層によって修正可能であることです。
2つ目は、モックツーケンベンチマークがプロダクションルーティングを忠実に表現していることだ。
両方の仮定をテストするためにDODOCOを導入します。
我々は、5つのシークエンスミキサー設計(DeepSeek-V2-Lite MLA, DeepSeek-MoE-16B MHA, Qwen3-30B GQA, Nemotron-30B Mamba-2, Qwen3.5-35B GDN)の5つのチェックポイントを5×6グリッドのデータ条件と、H100の4~32ランクのEPスキャンで計測する。
EPのスケーリングは、各アーキテクチャの計測可能な範囲内で、専門家ごとの最大/平均トークン比率を5%以上変更する。
モックトークンは、ルーティングのGiniを最大2.35倍に過大評価し、実際のテキストがランダムIDを置き換える瞬間を消滅させるバッチサイズのスケーリングトレンドを作成する。
3つ目のパターンは、予想外の、同じマトリックスから現れ、5つのアーキテクチャが2つの安定したバンドに分解される。
MHAとMamba-2(データレジリエント)はwikitextでGini 0.105 と 0.150 にダウンする。
MLA と GDN (peristently concentration) は、すべての実文条件で 0.24 を超え、モックでは 0.29 から 0.38 に達する。
GQAは中間ケースである。
これらのバンドはEP学位やモックデータプロファイルではなく、AlltoAll-aware相互接続およびディスパッチ設計への適切なワークロード入力である。
関連論文リスト
- Fidelity Probes for Specification--Code Alignment [7.754687669049819]
我々は,コード由来の接地真実解を持つ参照アーティファクトから生成した自然依存問題である忠実度プローブを紹介する。
忠実度プローブは矛盾とカバレッジギャップ率に分解され、ターゲット仕様の編集を収束させる。
15のプログラムで約12kラインのベンチマークを行い、8回のイテレーションで0.63から0.94に凍結テスト仕様の忠実度を上げました。
論文 参考訳(メタデータ) (2026-05-17T04:05:54Z) - MolmoAct2: Action Reasoning Models for Real-world Deployment [67.6315757474802]
MolmoAct2は、実用的なデプロイメントのために構築された、完全にオープンなアクション推論モデルである。
空間的および具体的推論に特化した VLM バックボーンである MolmoER を紹介する。
低コストプラットフォームにまたがる3つの新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2026-05-04T17:51:21Z) - HubRouter: A Pluggable Sub-Quadratic Routing Primitive for Hybrid Sequence Models [0.0]
私たちは、O(n2)アテンション層をO(nM)ハブ経由のルーティングに置き換えるプラグイン可能なモジュールであるHub Codeを紹介します。
我々は、Jambaスタイルのハイブリッドと12層トランスフォーマーの2つのオフスクラッチアーキテクチャでこれを実証する。
論文 参考訳(メタデータ) (2026-04-24T10:59:30Z) - What Is the Minimum Architecture for Prolepsis? Early Irrevocable Commitment Across Tasks in Small Transformers [0.7310043452300737]
textbfprolepsisを導入します: トランスフォーマーが早期にコミットし、タスク固有のアテンションヘッドがコミットメントを持続し、レイヤがそれを修正します。
すべての実験は1つの消費者向けGPU(16,GB VRAM)で実行される
論文 参考訳(メタデータ) (2026-04-16T13:38:34Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - What matters for Representation Alignment: Global Information or Spatial Structure? [64.67092609921816]
表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。
我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
論文 参考訳(メタデータ) (2025-12-11T16:39:53Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Deep Sparse Conformer for Speech Recognition [1.4649095013539173]
コンフォーマーは自動音声認識において印象的な結果を得た。
我々は、時間複雑性とメモリ使用量において$mathcalO(LtextlogL)$でスパース自己保持機構を適用する。
日本のCSJ-500hデータセットでは、この深いスパースコンフォーマーはそれぞれ5.52%、4.03%、および4.50%のCERを達成する。
論文 参考訳(メタデータ) (2022-09-01T06:56:11Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。