論文の概要: Beyond Task-Agnostic: Task-Aware Grouping for Communication-Efficient Multi-Task MoE Inference
- arxiv url: http://arxiv.org/abs/2606.01007v1
- Date: Sun, 31 May 2026 04:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.066146
- Title: Beyond Task-Agnostic: Task-Aware Grouping for Communication-Efficient Multi-Task MoE Inference
- Title(参考訳): タスク非依存を超えて:コミュニケーション効率の良いマルチタスクMoE推論のためのタスク認識グループ化
- Authors: Zhiyao Xu, Aoxue Liu, Zhanjie Ding, Dan Zhao, Yong Jiang, Qing Li,
- Abstract要約: 本稿では,課題認識によるグループ専門家を対象としたemphTask-Aware Coactivation Grouping (TACG)を提案する。
また,emphGeneric Expert Shared Replication (GESR)を導入し,一貫したコアクティベーションプロファイルを持つジェネリックエキスパートを特定する。
我々のフレームワークは平均通信コストを31.39%削減し、平均ジャイナフェアネス指数は0.9975である。
- 参考スコア(独自算出の注目度): 16.917643169487402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparsely activated Mixture-of-Experts (MoE) models scale capacity via conditional computation, but distributed inference suffers from cross-GPU expert communication and routing-induced load imbalance. Existing placement methods reduce this cost by co-locating frequently co-activated experts; however, they derive a single deployment plan from globally aggregated routing traces, thereby averaging away the heterogeneous, task-specific co-activation patterns that actually drive communication in multi-task serving. We observe that expert co-activation is strongly task-conditioned: pairs tightly coupled in one task family are often uncorrelated in another, so effective deployment should group experts by task-aware co-activation rather than by a task-agnostic average. Based on this insight, we propose \emph{Task-Aware Coactivation Grouping} (TACG), a deployment-time framework that uses family-specific dispatch and co-activation traces to derive per-expert task-family preferences, reweights the co-activation graph so that intra-family locality dominates grouping, and assigns each expert to a primary GPU under exact capacity constraints. To keep the static placement robust under online workload skew, we further introduce \emph{Generic Expert Shared Replication} (GESR), a lightweight companion that identifies generic experts with consistently central co-activation profiles, replicates them across a small set of secondary GPUs, and applies locality- and load-aware selection at serving time. Experiments on three representative open-source MoE models demonstrate that our framework reduces the average communication cost by 31.39\% over the baseline, while preserving an average Jain fairness index of 0.9975. This advantage persists even under severe distribution shifts in the inference data, consistently outperforming strong baselines.
- Abstract(参考訳): わずかに活性化されたMixture-of-Experts (MoE)モデルは条件付き計算によってキャパシティをスケールするが、分散推論はGPU間通信とルーティングによる負荷不均衡に悩まされる。
既存の配置手法では、頻繁なコアクティベートの専門家を共同配置することで、このコストを削減することができるが、グローバルに集約されたルーティングトレースから単一のデプロイメント計画が導かれるため、マルチタスクサービスにおける通信を実際に駆動する異質なタスク固有のコアクティベーションパターンが平均化される。
1つのタスクファミリに密結合したペアは、他のタスクファミリと相関しないことが多いので、効果的なデプロイメントは、タスク非依存の平均ではなく、タスク対応のコアクティベーションによって専門家をグループ化するべきである。
この知見に基づいて、家族固有のディスパッチとコアクティベーショントレースを用いて、熟練タスクごとの嗜好を導出し、コアクティベーショングラフを再重み付けして、家族内局所性がグループ化を優位にし、各専門家を正確なキャパシティ制約の下で一次GPUに割り当てるデプロイ時フレームワークである「emph{Task-Aware Coactivation Grouping} (TACG)」を提案する。
これは、一貫したコアクティベーションプロファイルを持つジェネリックエキスパートを特定し、小さなセカンダリGPUセットに複製し、サービス時にローカリティとロードアウェアの選択を適用する軽量なコンパニオンである。
3つの代表的なオープンソースMoEモデルに対する実験により、我々のフレームワークはベースライン上で平均通信コストを31.39 %削減し、平均ジャイナフェアネス指数は0.9975を維持した。
この優位性は、推論データにおける厳しい分布シフトの下でも持続し、強いベースラインを一貫して上回る。
関連論文リスト
- Coordination Graphs for Constrained Multi-Agent Reinforcement Learning [4.278821961637313]
制約付きマルチエージェント強化学習(CG-CMARL)のためのコーディネーショングラフ
システムは、共同問題をペアワイズ領域に分解し、それぞれに共有Q-関数の集合を提供する。
実行時には、Max-Sumメッセージパッシングがファクタグラフ全体のアクションをコーディネートし、ラグランジアン乗算器が客観的-制約トレードオフを制御する。
論文 参考訳(メタデータ) (2026-06-01T14:46:16Z) - Improving the Efficiency of Language Agent Teams with Adaptive Task Graphs [52.26652574704317]
大規模言語モデル(LLM)はますますチームにデプロイされているが、既存のコーディネーションアプローチは2つの極端な部分を占めることが多い。
本稿では,Language Agent Teams for Task Evolution (LATTE)を紹介した。
論文 参考訳(メタデータ) (2026-05-07T14:19:17Z) - Multi-Domain Learning with Global Expert Mapping [102.62297074508147]
Mixture-of-Experts (MoE)モデルは、入力を専門分野(専門家)にルーティングすることでスケーラブルなソリューションを提供する。
本稿では,学習ルータをグローバルスケジューラに置き換えるプランナー・コンパイラフレームワークであるGEMを提案する。
我々のプランナーは線形プログラミングの緩和に基づいて、データセットを専門家に分数的に割り当てる一方、コンパイラはこのソフトプランを決定論的でキャパシティを意識したマッピングに変換するために階層的なラウンドリングを適用する。
実験の結果、GEM-DINOはUODBベンチマークで最先端のパフォーマンスを達成し、表現不足のデータセットに顕著な利益をもたらし、タスク干渉をわずかに解決していることがわかった。
論文 参考訳(メタデータ) (2026-04-20T21:09:34Z) - GoAgent: Group-of-Agents Communication Topology Generation for LLM-based Multi-Agent Systems [55.12339141172908]
GoAgentは、協調グループをMAS構築の原子単位として明示的に扱う通信トポロジ生成手法である。
6つのベンチマークの実験では、GoAgentの最先端のパフォーマンスを93.84%の平均精度で証明し、トークン消費を約17%削減した。
論文 参考訳(メタデータ) (2026-03-20T06:21:32Z) - C$^2$-Explorer: Contiguity-Driven Task Allocation with Connectivity-Aware Task Representation for Decentralized Multi-UAV Exploration [9.118945533198369]
限られたコミュニケーション下での効率的な多時期探索は、不適切なタスク表現とアロケーションによって著しくボトルネックとなる。
C$2$-Explorerは、非接続未知のコンポーネントを独立したタスクユニットに分解する接続グラフを構築する分散フレームワークである。
C$2$-Explorerは、最先端(SOTA)ベースラインを一貫して上回り、平均探査時間を43.1%削減し、経路長を33.3%短縮することを示した。
論文 参考訳(メタデータ) (2026-03-08T15:54:33Z) - Robust multi-task boosting using clustering and local ensembling [6.920276126310231]
クラスタリングと局所組立(RMB-CLE)を用いたロバストマルチタスクブースティングを提案する。
RMB-CLEは、クロスタスクエラーから直接タスク間類似性を導出する。
各クラスタ内のローカルアンサンブルは、堅牢な知識共有を可能にする。
論文 参考訳(メタデータ) (2026-02-15T16:59:23Z) - MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching [60.886768806064936]
Tool-Integrated Reasoningは、外部ツールのインタラクションと推論ステップをインターリーブすることで、大規模な言語モデルで複雑なタスクに対処することを可能にする。
既存の強化学習法は、結果や軌道レベルの報酬に依存し、軌道内のすべてのステップに一様の利点を割り当てる。
両部間マッチングに基づくターンレベルの報酬割当と二重レベルの優位性推定によるきめ細かい監視を実現するフレームワークであるMatchTIRを提案する。
論文 参考訳(メタデータ) (2026-01-15T18:59:23Z) - Achieving Tighter Finite-Time Rates for Heterogeneous Federated Stochastic Approximation under Markovian Sampling [6.549288471493216]
我々は,M$エージェントを含む汎用的な近似問題について検討した。
目標は、エージェントがサーバを介して断続的に通信し、エージェントのローカルオペレータの平均のルートを見つけることである。
我々はtexttFedHSA という名の新しいアルゴリズムを開発し、正しい点への収束を保証することを証明した。
論文 参考訳(メタデータ) (2025-04-15T22:13:55Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。