論文の概要: Faster, Smaller, and Smarter: Task-Aware Expert Merging for Online MoE Inference
- arxiv url: http://arxiv.org/abs/2509.19781v1
- Date: Wed, 24 Sep 2025 06:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.701655
- Title: Faster, Smaller, and Smarter: Task-Aware Expert Merging for Online MoE Inference
- Title(参考訳): より速く、より小さく、より賢く:オンラインMoE推論のためのタスクアウェアエキスパートマージ
- Authors: Ziyi Han, Xutong Liu, Ruiting Zhou, Xiangxiang Dai, John C. S. Lui,
- Abstract要約: 本稿では,木に制約のある適応型ニューラルネットワークルータtextttTanbrを提案する。
textttTanbrは、推論のレイテンシを少なくとも45%以上削減し、メモリ使用量を25%以上削減します。
- 参考スコア(独自算出の注目度): 37.57447016891199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture of Experts (SMoE) has become a preferred architecture for scaling Transformer capacity without increasing computational cost, as it activates only a small subset of experts for each input. However, deploying such an approach for \textit{online inference} remains challenging due to the large size of a full SMoE model and the complexity of expert routing, especially in resource-constrained edge networks. Moreover, during the online inference, task information is often unavailable, making the task-level routing error-prone. In this work, we propose a novel tree-structured adaptive neural bandit router, \texttt{Tanbr}, to enable efficient and reliable online MoE inference. Instead of relying on explicit task tags, \texttt{Tanbr} estimates the task distribution over time from historical data and uses it to guide task-aware expert merging within a given pre-trained MoE. To handle the large continuous space of merging weights, \texttt{Tanbr} employs a binary tree to progressively partition the space and generate finer candidate weights. It then applies a neural bandit to learn the non-linear mapping from merging weight to model performance and decides optimal expert merging. We prove that \texttt{Tanbr} achieves a sublinear regret bound of {\small $\mathcal{O}(\sqrt{T} \log(T))$} over {\small $T$} rounds, despite operating over a continuous decision space, matching regret bounds compared to existing methods. Extensive experiments show that \texttt{Tanbr} reduces inference latency by at least {\small $45\%$} and memory usage by up to {\small $25\%$}, while maintaining a high accuracy compared to many state-of-the-art methods.
- Abstract(参考訳): SMOE(Sparse Mixture of Experts)は、演算コストを増大させることなくトランスフォーマー容量をスケールするためのアーキテクチャとして好まれている。
しかし、フルSMoEモデルの大きさと、特にリソース制約されたエッジネットワークにおいて、エキスパートルーティングの複雑さのため、そのようなアプローチをtextit{online inference} に展開することは依然として困難である。
さらに、オンライン推論では、タスク情報は利用できないことが多く、タスクレベルのルーティングがエラーを起こしやすい。
そこで本研究では,木構造適応型ニューラルネットワークルータ \texttt{Tanbr} を提案する。
明示的なタスクタグに頼る代わりに、 \texttt{Tanbr}は、過去のデータから時間とともにタスクの分散を推定し、与えられたトレーニング済みのMoE内にマージされたタスク認識の専門家をガイドするためにそれを使用する。
重みをマージする大きな連続空間を扱うために、 \texttt{Tanbr} は二分木を用いて空間を段階的に分割し、より微細な候補重みを生成する。
次にニューラルバンディットを適用して、重み付けからモデルパフォーマンスへの非線形マッピングを学習し、最適な専門家のマージを決定する。
我々は、連続的な決定空間上で動作しているにも関わらず、既存の方法と比較して後悔境界に一致するにもかかわらず、 \texttt{Tanbr} が {small $\mathcal{O}(\sqrt{T} \log(T))$} のサブ線形後悔境界を達成することを証明した。
大規模な実験によると、 \texttt{Tanbr} は推論遅延を少なくとも$45\%$} で減らし、メモリ使用量を$25\%$} まで減らし、最先端の多くの手法と比較して高い精度を維持している。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - TensorGRaD: Tensor Gradient Robust Decomposition for Memory-Efficient Neural Operator Training [91.8932638236073]
textbfTensorGRaDは,重み付けに伴うメモリ問題に直接対処する新しい手法である。
SparseGRaD は総メモリ使用量を 50% 以上削減し,同時に精度も向上することを示した。
論文 参考訳(メタデータ) (2025-01-04T20:51:51Z) - MazeNet: An Accurate, Fast, and Scalable Deep Learning Solution for Steiner Minimum Trees [24.24123863704024]
我々は,OARSMT(Obstacle Avoiding Rectilinear Steiner Minimum Tree)をデータから解くためのディープラーニングベースの手法であるMazeNetを提案する。
MazeNetの重要な特徴はスケーラビリティです – 少数の端末を持つ迷路上でRCNNブロックをトレーニングするだけでよいのです。
幅広い実験において、MazeNetはOARSMT解決の精度を完璧に達成し、従来の正確なアルゴリズムと比較してランタイムを大幅に削減し、最先端の近似アルゴリズムよりも多くの端末を処理することができる。
論文 参考訳(メタデータ) (2024-10-24T15:19:48Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Testing RadiX-Nets: Advances in Viable Sparse Topologies [0.9555447998395205]
ハイパーパラメタライズドディープニューラルネットワーク(DNN)のスパシフィケーションは、複雑なデータのより単純な表現を生成する。
DNNのサブグループであるRadiX-Netsは、ニューラルネットワークの欠如に対処するランタイムを維持している。
本稿では,スケーラブルモデルにおけるRadiX-Netsのテストスイートを提案する。
論文 参考訳(メタデータ) (2023-11-06T23:27:28Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - ${\rm N{\small ode}S{\small ig}}$: Random Walk Diffusion meets Hashing
for Scalable Graph Embeddings [7.025709586759654]
$rm Nsmall odeSsmall ig$は、バイナリノード表現を計算するスケーラブルな埋め込みモデルである。
$rm N Small odeS Small ig$は、ランダムなウォーク拡散確率を、安定したランダムなプロジェクションハッシュを通じて活用する。
論文 参考訳(メタデータ) (2020-10-01T09:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。