論文の概要: Router Upcycling: Leveraging Mixture-of-Routers in Mixture-of-Experts Upcycling
- arxiv url: http://arxiv.org/abs/2509.00679v1
- Date: Sun, 31 Aug 2025 03:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.337829
- Title: Router Upcycling: Leveraging Mixture-of-Routers in Mixture-of-Experts Upcycling
- Title(参考訳): ルータアップサイクリング:Mixture-of-Routerを利用したMixture-of-Experts Upcycling
- Authors: Junfeng Ran, Guangxiang Zhao, Yuhan Wu, Dawei Zhu, Longyun Wu, Yikai Zhao, Tong Yang, Lin Sun, Xiangzheng Zhang, Sujian Li,
- Abstract要約: 本稿では,MoEアップサイクリングモデルの性能を向上させるために,ルータアップサイクリングと呼ばれる新しいルーティング手法を提案する。
提案手法は,SOTA(State-of-the-art)の性能を向上し,他のアップサイクルベースラインよりも優れる。
- 参考スコア(独自算出の注目度): 26.191204823414427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture-of-Experts (MoE) models have gained significant attention in deep learning due to their dynamic resource allocation and superior performance across diverse tasks. However, efficiently training these models remains challenging. The MoE upcycling technique has been proposed to reuse and improve existing model components, thereby minimizing training overhead. Despite this, simple routers, such as linear routers, often struggle with complex routing tasks within MoE upcycling. In response, we propose a novel routing technique called Router Upcycling to enhance the performance of MoE upcycling models. Our approach initializes multiple routers from the attention heads of preceding attention layers during upcycling. These routers collaboratively assign tokens to specialized experts in an attention-like manner. Each token is processed into diverse queries and aligned with the experts' features (serving as keys). Experimental results demonstrate that our method achieves state-of-the-art (SOTA) performance, outperforming other upcycling baselines.
- Abstract(参考訳): Mixture-of-Experts(MoE)モデルは、動的リソース割り当てと多様なタスクにおける優れたパフォーマンスのため、ディープラーニングにおいて大きな注目を集めている。
しかし、これらのモデルを効率的に訓練することは依然として困難である。
既存のモデルコンポーネントの再利用と改善を目的として,MoEアップサイクル技術が提案されている。
それにもかかわらず、リニアルータのような単純なルータは、MoEアップサイクル内の複雑なルーティングタスクにしばしば苦労する。
そこで本研究では,MoEアップサイクリングモデルの性能を向上させるために,ルータアップサイクリングと呼ばれる新しいルーティング手法を提案する。
本手法は, 遡上時に先行する注目層の注意ヘッドから複数のルータを初期化する。
これらのルータは、注意のような方法で、特別な専門家にトークンを協調的に割り当てる。
各トークンはさまざまなクエリに処理され、専門家の機能(キーとして保存される)に適合する。
実験により,本手法がSOTA(State-of-the-art (SOTA))性能を実現し,他のアップサイクルベースラインよりも優れた性能を示した。
関連論文リスト
- MoTE: Mixture of Task-specific Experts for Pre-Trained ModelBased Class-incremental Learning [39.892628170627496]
クラスインクリメンタルラーニング(CIL)では、ストリーミングデータから新たな知識を継続的に取得するために、ディープラーニングモデルが必要である。
プロンプトベースのアプローチはプロンプトオーバーライトに悩まされ、アダプタベースの手法はタスク間の次元的ミスアライメントのような課題に直面している。
本稿では,不整合出力次元による誤判定を効果的に軽減するタスク特化専門家(MoTE)フレームワークの混合を提案する。
論文 参考訳(メタデータ) (2025-05-21T03:06:10Z) - ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing [28.73697327316267]
計算予算を増大させることなく、モデルキャパシティをスケールアップするために、緩やかに活性化されたMixture-of-Experts (MoE)モデルが広く採用されている。
我々は,従来のTopK+Softmaxルーティングの簡易かつ効果的なドロップイン置換を提供する,完全に微分可能なMoEアーキテクチャであるReMoEを提案する。
ReMoEは、さまざまなモデルサイズ、専門家数、粒度のレベルにおいて、バニラTopKのMoEを一貫して上回る。
論文 参考訳(メタデータ) (2024-12-19T10:21:20Z) - Glider: Global and Local Instruction-Driven Expert Router [83.785832410832]
モデルMoErging」手法は、保持タスクのパフォーマンスを犠牲にして、未確認タスクへの一般化を優先する。
マルチスケールルーティング機構を統合したGLIDER(Global and Local Instruction Driven Expert Router)を提案する。
GLIDERは、ホールドアウトタスクの強い一般化を維持しながら、ホールドイン性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:14Z) - RouterRetriever: Routing over a Mixture of Expert Embedding Models [58.987116118425995]
本稿では、ルーティング機構を用いて、ドメイン固有の専門家の混在を利用した検索モデルであるReuterRetrieverを紹介する。
RouterRetrieverは、ドメイン固有の専門的な埋め込みモデルを混在させたルーティングの利点を示す最初の研究である。
論文 参考訳(メタデータ) (2024-09-04T13:16:55Z) - MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts [38.15244333975921]
MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。
提案手法は,従来のMixture-of-Expertsモデルよりも,パープレキシティ(PPL)とダウンストリームタスク性能の両方で優れていた。
論文 参考訳(メタデータ) (2024-07-13T09:22:33Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。