Fugu-MT 論文翻訳(概要): Routers in Vision Mixture of Experts: An Empirical Study

論文の概要: Routers in Vision Mixture of Experts: An Empirical Study

arxiv url: http://arxiv.org/abs/2401.15969v1
Date: Mon, 29 Jan 2024 08:58:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 15:26:29.772678
Title: Routers in Vision Mixture of Experts: An Empirical Study
Title（参考訳）: 専門家の視覚混合におけるルータ : 実証的研究
Authors: Tianlin Liu, Mathieu Blondel, Carlos Riquelme, Joan Puigcerver
Abstract要約: Mixture-of-Experts (MoE)モデルは、計算コストを大幅に増加させることなく、モデル容量をスケールアップする有望な方法である。 MoEsの主要なコンポーネントはルータであり、どのパラメータ(専門家)プロセスのサブセットが埋め込み(トークン)を特徴付けるかを決定する。
参考スコア（独自算出の注目度）: 28.96804353500404
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mixture-of-Experts (MoE) models are a promising way to scale up model capacity without significantly increasing computational cost. A key component of MoEs is the router, which decides which subset of parameters (experts) process which feature embeddings (tokens). In this paper, we present a comprehensive study of routers in MoEs for computer vision tasks. We introduce a unified MoE formulation that subsumes different MoEs with two parametric routing tensors. This formulation covers both sparse MoE, which uses a binary or hard assignment between experts and tokens, and soft MoE, which uses a soft assignment between experts and weighted combinations of tokens. Routers for sparse MoEs can be further grouped into two variants: Token Choice, which matches experts to each token, and Expert Choice, which matches tokens to each expert. We conduct head-to-head experiments with 6 different routers, including existing routers from prior work and new ones we introduce. We show that (i) many routers originally developed for language modeling can be adapted to perform strongly in vision tasks, (ii) in sparse MoE, Expert Choice routers generally outperform Token Choice routers, and (iii) soft MoEs generally outperform sparse MoEs with a fixed compute budget. These results provide new insights regarding the crucial role of routers in vision MoE models.
Abstract（参考訳）: Mixture-of-Experts (MoE)モデルは、計算コストを大幅に増加させることなく、モデル容量をスケールアップする有望な方法である。 MoEsの重要なコンポーネントはルータであり、組み込み(トークン)を特徴とするパラメータ(専門家)プロセスのサブセットを決定する。本稿では,コンピュータビジョンタスクのためのMoEにおけるルータの総合的研究について述べる。 2つのパラメトリックルーティングテンソルを持つ異なるMoEを仮定する統一MoE式を導入する。この定式化は、専門家とトークン間のバイナリまたはハードな割り当てを使用するスパースMoEと、専門家間のソフトな割り当てとトークンの重み付けの組み合わせを使用するソフトMoEの両方をカバーする。スパースモエのためのルータはさらに2つの変種にグループ化することができる: 各トークンに専門家をマッチするトークン選択と、各専門家にマッチするトークン選択である。我々は,既存のルータや導入した新しいルータを含む,6つの異なるルータで直接実験を行う。私たちはそれを示します (i)元々言語モデリングのために開発された多くのルータは、視覚タスクに強く適応することができる。 (ii)sparse moeでは、専門家選択ルータは一般的にトークン選択ルータよりも優れており、 (iii)ソフトmoeは一般に、一定計算予算でスパースmoeを上回っている。これらの結果は、vision moeモデルにおけるルータの重要な役割に関する新たな洞察を与える。

関連論文リスト

Mixture of States: Routing Token-Level Dynamics for Multimodal Generation [60.15447534872979]
マルチモーダル拡散モデルのための新しい融合パラダイムであるMoS(Mixture of States)を紹介する。 MoSは学習可能なトークン指向ルータで、遅延時間ステップと入力依存のインタラクションを生成する。我々は,画像のテキスト生成と編集による設計の検証を行い,その結果を得た。
論文参考訳（メタデータ） (2025-11-15T13:24:57Z)
Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance [79.21541758879012]
Mixture-of-Experts (MoE) は計算効率を保ちながらモデルキャパシティをスケールするための強力なパラダイムとして登場した。本稿では、専門家の専門化を促進する明示的なルーティングガイダンスを備えた2ステップルータを備えたMoEフレームワークであるProMoEを紹介する。
論文参考訳（メタデータ） (2025-10-28T17:59:02Z)
Understanding the Mixture-of-Experts with Nadaraya-Watson Kernel [87.60286115014833]
Mixture-of-Experts (MoE)は最近の最先端の大規模言語モデル(LLM)の基盤となっている。伝統的に、MoEはエキスパート出力を集約するためにルータスコア関数として$mathrmSoftmax$に依存している。 mathrmSoftmax$の代替として,textbfzero-additional-cost Kernel Router with Normalization (KERN)を提案する。
論文参考訳（メタデータ） (2025-09-30T08:04:02Z)
Optimizing MoE Routers: Design, Implementation, and Evaluation in Transformer Models [0.0]
Mixture of Experts (MoE)アーキテクチャは言語モデルのスケーラビリティを向上するが、そのパフォーマンスはトークンを専門の専門家に移すルータモジュールに依存している。この研究は、MoEルータの設計の比較分析を提供し、その性能を効率的かつ効率的な大規模モデル展開のために最適化するための洞察を提供する。
論文参考訳（メタデータ） (2025-06-19T15:55:43Z)
THOR-MoE: Hierarchical Task-Guided and Context-Responsive Routing for Neural Machine Translation [80.25152370613186]
階層型タスク誘導型およびコンテキスト応答型ルーティングポリシでMoEを武装するTHOR-MoEを提案する。 THOR-MoEは、既存のTop-$citeshazeer 2017やTop-$$citehuang-etal-2024-harderルーティングスキームと互換性のあるプラグインモジュールとして動作する。例えば、バニラTop-$$citehuang-etal-2024-harderルーティングと比較して、コンテキスト認識の方法は22%未満の活性パラメータで平均0.75 BLEUの改善を達成することができる。
論文参考訳（メタデータ） (2025-05-20T10:27:19Z)
ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing [28.73697327316267]
計算予算を増大させることなく、モデルキャパシティをスケールアップするために、緩やかに活性化されたMixture-of-Experts (MoE)モデルが広く採用されている。我々は,従来のTopK+Softmaxルーティングの簡易かつ効果的なドロップイン置換を提供する,完全に微分可能なMoEアーキテクチャであるReMoEを提案する。 ReMoEは、さまざまなモデルサイズ、専門家数、粒度のレベルにおいて、バニラTopKのMoEを一貫して上回る。
論文参考訳（メタデータ） (2024-12-19T10:21:20Z)
ViMoE: An Empirical Study of Designing Vision Mixture-of-Experts [71.11994027685974]
我々は、MoE構造をViT(Vision Transformer)に統合し、ViMoEと命名し、MoEを視覚に適用する可能性を探る。性能はMoE層の構成に敏感であり,設計を慎重に行わずに最適な結果を得ることが困難である。これを解決するために、共有専門家を導入し、共通情報を学習し、取得し、安定したViMoEを構築する効果的な方法として役立てる。
論文参考訳（メタデータ） (2024-10-21T07:51:17Z)
DA-MoE: Towards Dynamic Expert Allocation for Mixture-of-Experts Models [1.4255659581428335]
そこで本稿では,DA-MoEモデルに対して,有効トークン重要度に基づく可変数のエキスパートを動的に割り当てる手法を提案する。提案手法は,最新のトランスフォーマーベースのMoEモデルをGLUEベンチマークで一貫した性能向上を実現している。
論文参考訳（メタデータ） (2024-09-10T17:36:15Z)
RouterRetriever: Routing over a Mixture of Expert Embedding Models [58.987116118425995]
本稿では、ルーティング機構を用いて、ドメイン固有の専門家の混在を利用した検索モデルであるReuterRetrieverを紹介する。 RouterRetrieverは、ドメイン固有の専門的な埋め込みモデルを混在させたルーティングの利点を示す最初の研究である。
論文参考訳（メタデータ） (2024-09-04T13:16:55Z)
MaskMoE: Boosting Token-Level Learning via Routing Mask in Mixture-of-Experts [38.15244333975921]
MaskMoEは、より包括的なトレーニングを行いながら、表現の多様性を維持することができる。提案手法は,従来のMixture-of-Expertsモデルよりも,パープレキシティ(PPL)とダウンストリームタスク性能の両方で優れていた。
論文参考訳（メタデータ） (2024-07-13T09:22:33Z)
A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。 MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文参考訳（メタデータ） (2024-06-26T10:07:57Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
Patch-level Routing in Mixture-of-Experts is Provably Sample-efficient for Convolutional Neural Networks [74.68583356645276]
ディープラーニングでは、Mixix-of-experts(MoE)が、サンプル単位またはトーケン単位で専門家(サブネットワーク)を活性化する。我々は,pMoEが適切な一般化を実現するために,必要なトレーニングサンプル数を確実に削減できることを初めて示す。
論文参考訳（メタデータ） (2023-06-07T00:16:10Z)
AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文参考訳（メタデータ） (2022-10-14T05:32:17Z)
Mixture of Attention Heads: Selecting Attention Heads Per Token [40.04159325505842]
Mixture of Attention Heads (MoA)は、マルチヘッドアテンションとMoEメカニズムを組み合わせた新しいアーキテクチャである。 MoAは、標準的なマルチヘッドアテンション層よりも強力なパフォーマンスを実現している。 MoAはまた、ヘッドのユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新しい視点を提供する。
論文参考訳（メタデータ） (2022-10-11T04:54:05Z)
Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。 MoEはクラウドやモバイル環境にデプロイするのは難しい。本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文参考訳（メタデータ） (2022-06-01T07:09:01Z)
StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文参考訳（メタデータ） (2022-04-18T16:48:19Z)
SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture of Experts [29.582683923988203]
Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。新しいルータアーキテクチャは、共有埋め込みネットワークからの情報を同時に利用できるSpeechMoEで使用されている。
論文参考訳（メタデータ） (2021-05-07T02:38:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。