論文の概要: Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation
- arxiv url: http://arxiv.org/abs/2603.04971v1
- Date: Thu, 05 Mar 2026 09:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.156614
- Title: Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation
- Title(参考訳): ユニバーサルエキスパートの混在:深さ-幅変換による仮想幅のスケーリング
- Authors: Yilong Chen, Naibin Gu, Junyuan Shang, Zhenyu Zhang, Yuchen Feng, Jiawei Sheng, Tingwen Liu, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang,
- Abstract要約: Mixture-of-Experts (MoE) は、モデルのキャパシティをトーケン毎の計算から切り離す。
MoEの一般化は、新しいスケーリングディメンションであるVirtual Widthを導入している。
MoEは継続的にMoEベースラインに匹敵する性能を1.3%まで上回っている。
- 参考スコア(独自算出の注目度): 49.44855760291454
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mixture-of-Experts (MoE) decouples model capacity from per-token computation, yet their scalability remains limited by the physical dimensions of depth and width. To overcome this, we propose Mixture of Universal Experts (MOUE),a MoE generalization introducing a novel scaling dimension: Virtual Width. In general, MoUE aims to reuse a universal layer-agnostic expert pool across layers, converting depth into virtual width under a fixed per-token activation budget. However, two challenges remain: a routing path explosion from recursive expert reuse, and a mismatch between the exposure induced by reuse and the conventional load-balancing objectives. We address these with three core components: a Staggered Rotational Topology for structured expert sharing, a Universal Expert Load Balance for depth-aware exposure correction, and a Universal Router with lightweight trajectory state for coherent multi-step routing. Empirically, MoUE consistently outperforms matched MoE baselines by up to 1.3% across scaling regimes, enables progressive conversion of existing MoE checkpoints with up to 4.2% gains, and reveals a new scaling dimension for MoE architectures.
- Abstract(参考訳): Mixture-of-Experts (MoE)は、モデルのキャパシティをトーケン毎の計算から切り離すが、そのスケーラビリティは深さと幅の物理的次元によって制限される。
そこで本研究では,新たなスケーリングディメンションである仮想幅を導入したMOUE(Mixture of Universal Experts)を提案する。
一般的にMoUEは、レイヤ横断の普遍的なレイヤに依存しないエキスパートプールを再利用することを目的としており、固定されたトークン単位のアクティベーション予算の下で、深さを仮想幅に変換する。
しかし、再帰的な専門家の再利用によるルーティングパスの爆発と、再利用によって引き起こされた露光と従来の負荷分散の目的とのミスマッチという2つの課題が残っている。
構造化されたエキスパート共有のためのスタガー付き回転トポロジー、深度対応の露光補正のためのユニバーサルエキスパートロードバランス、コヒーレントなマルチステップルーティングのための軽量な軌道状態を持つユニバーサルルータの3つのコアコンポーネントで対処する。
実証的には、MoUEはMoEのベースラインにマッチする性能を最大1.3%向上させ、最大4.2%のゲインで既存のMoEチェックポイントのプログレッシブな変換を可能にし、MoEアーキテクチャの新たなスケーリングディメンションを明らかにしている。
関連論文リスト
- M3SR: Multi-Scale Multi-Perceptual Mamba for Efficient Spectral Reconstruction [47.507960245579106]
本稿では,M3SRと呼ばれるスペクトル再構成タスクのためのマルチスケール・マルチパーセプティカル・マンバアーキテクチャを提案する。
具体的には,モデルが入力特徴を包括的に理解し解析する能力を高めるために,多視点融合ブロックを設計する。
論文 参考訳(メタデータ) (2026-01-13T07:33:38Z) - ReXMoE: Reusing Experts with Minimal Overhead in Mixture-of-Experts [25.46805026086543]
既存のレイヤローカルアプローチを超えてルーティングを改善する新しいMoEアーキテクチャであるReXMoEについて説明する。
ReXMoEは、個々の専門家の能力を犠牲にすることなく、よりリッチな専門家の組み合わせを可能にする、階層単位の予算から専門家の次元を分離する。
論文 参考訳(メタデータ) (2025-10-20T12:27:55Z) - Hierarchical LoRA MoE for Efficient CTR Model Scaling [56.608809143548946]
HiLoMoEは階層的なLoRA MoEフレームワークで、パラメータ効率のよい全体的なスケーリングを可能にする。
従来のスタックとは異なり、HiLoMoEルートは出力ではなく前のレイヤスコアに基づいており、すべてのレイヤが並列に実行される。
論文 参考訳(メタデータ) (2025-10-12T03:54:11Z) - MuGS: Multi-Baseline Generalizable Gaussian Splatting Reconstruction [32.14335364083271]
新規なビュー合成のためのフィードフォワードアプローチであるMulti-Baseline Gaussian Splatting (MuGS)を提案する。
MuGSは、小さなベースラインと大きなベースラインの両方でスパース入力ビューを含む、多様なベースライン設定を効果的に処理する。
LLFFおよびMip-NeRF 360データセットにおけるゼロショット性能を実証した。
論文 参考訳(メタデータ) (2025-08-06T10:34:24Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - How Lightweight Can A Vision Transformer Be [0.0]
我々は、Mixture-of-Experts (MoE) を用いて、拡張された視覚変換器ではなく、合理化を行う戦略を探求する。
MoE層の各専門家はSwiGLUフィードフォワードネットワークであり、VとW2は層間で共有される。
アーキテクチャは0.67Mのパラメータでも競合することがわかった。
論文 参考訳(メタデータ) (2024-07-25T05:23:20Z) - Enhancing NeRF akin to Enhancing LLMs: Generalizable NeRF Transformer
with Mixture-of-View-Experts [88.23732496104667]
クロスシーンの一般化可能なNeRFモデルは、NeRFフィールドの新たなスポットライトとなっている。
我々は、大規模言語モデルから強力なMixture-of-Experts(MoE)のアイデアを"神経化"アーキテクチャにブリッジする。
提案手法は,GNT-MOVE (Mixture-of-View-Experts) とよばれるモデルで,未知のシーンに移動する際の最先端の結果を実験的に示す。
論文 参考訳(メタデータ) (2023-08-22T21:18:54Z) - Non-local Recurrent Regularization Networks for Multi-view Stereo [108.17325696835542]
深層多視点ステレオネットワークでは、正確な深さ推定を実現するためにコスト正規化が不可欠である。
NR2-Netと呼ばれるマルチビューステレオのための新しい非局所リカレント正規化ネットワークを提案する。
提案手法は,DTU,タンク,テンプルの双方のデータセットに対して,最先端の再構築結果を実現する。
論文 参考訳(メタデータ) (2021-10-13T01:43:54Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。