Fugu-MT 論文翻訳(概要): Soft Merging of Experts with Adaptive Routing

論文の概要: Soft Merging of Experts with Adaptive Routing

arxiv url: http://arxiv.org/abs/2306.03745v2
Date: Mon, 13 May 2024 16:20:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-15 01:42:01.273269
Title: Soft Merging of Experts with Adaptive Routing
Title（参考訳）: 適応的ルーティングによるエキスパートのソフトマージ
Authors: Mohammed Muqeeth, Haokun Liu, Colin Raffel,
Abstract要約: 適応ルーティングによるエキスパートのソフトマージ(SMEAR)について紹介する SMEARは、専門家のパラメータの重み付け平均を通して構築された単一の「マージされた」専門家を使用することで、離散的なルーティングを避ける。我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。
参考スコア（独自算出の注目度）: 38.962451264172856
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparsely activated neural networks with conditional computation learn to route their inputs through different "expert" subnetworks, providing a form of modularity that densely activated models lack. Despite their possible benefits, models with learned routing often underperform their parameter-matched densely activated counterparts as well as models that use non-learned heuristic routing strategies. In this paper, we hypothesize that these shortcomings stem from the gradient estimation techniques used to train sparsely activated models that use non-differentiable discrete routing decisions. To address this issue, we introduce Soft Merging of Experts with Adaptive Routing (SMEAR), which avoids discrete routing by using a single "merged" expert constructed via a weighted average of all of the experts' parameters. By routing activations through a single merged expert, SMEAR does not incur a significant increase in computational costs and enables standard gradient-based training. We empirically validate that models using SMEAR outperform models that route based on metadata or learn sparse routing through gradient estimation. Furthermore, we provide qualitative analysis demonstrating that the experts learned via SMEAR exhibit a significant amount of specialization. All of the code used in our experiments is publicly available.
Abstract（参考訳）: 条件付き計算を伴うわずかに活性化されたニューラルネットワークは、異なる"専門家"サブネットワークを通じて入力をルーティングすることを学び、密に活性化されたモデルに欠けているモジュラリティの形式を提供する。それらの利点はあるものの、学習されたルーティングを持つモデルは、パラメータマッチングされた高密度に活性化されたモデルと、学習されていないヒューリスティックなルーティング戦略を使用するモデルとを過小評価することが多い。本稿では、これらの欠点は、微分不可能な離散的ルーティング決定を用いた疎活性化モデルの訓練に使用される勾配推定手法に起因していると仮定する。この問題に対処するために,専門家のパラメータの重み付け平均を用いて構築された単一の"マージ"エキスパートを使用することで,個別のルーティングを回避するためのSMEAR(Soft Merging of Experts with Adaptive Routing)を導入する。単一のマージされた専門家を通してアクティベーションをルーティングすることで、SMEARは計算コストを大幅に増加させず、標準勾配ベースのトレーニングを可能にする。我々は,メタデータに基づいた経路モデルや,勾配推定によるスパースルーティングを学習するSMEARモデルを用いたモデルの有効性を実証的に検証した。さらに,SMEARを用いて学習した専門家が,相当量の専門性を示した質的分析を行った。私たちの実験で使われたコードは、すべて公開されています。

関連論文リスト

Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts [33.39800923804871]
我々は、フレキシブルなルーティング戦略を持つ拡散変圧器のための新しいMoEモデルであるRace-DiT、Expert Raceを紹介する。トークンとエキスパートが競争し、上位候補を選択することによって、モデルはエキスパートをクリティカルトークンに動的に割り当てることを学ぶ。
論文参考訳（メタデータ） (2025-03-20T11:45:08Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Performance Characterization of Expert Router for Scalable LLM Inference [0.4726677580049183]
大規模言語モデル(LLM)は、科学や産業の領域で広く採用されている。最適なスループットとレイテンシで、これらのモデルを大規模にデプロイし、提供することは、依然として大きな課題です。本稿では、専門的な専門家モデルに向け、スケーラブルなルーティングアーキテクチャであるExpert Routerを紹介する。
論文参考訳（メタデータ） (2024-04-22T16:33:42Z)
Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文参考訳（メタデータ） (2023-10-11T10:21:34Z)
Phantom Embeddings: Using Embedding Space for Model Regularization in Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-14T17:15:54Z)
Model-Based Deep Learning: On the Intersection of Deep Learning and Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文参考訳（メタデータ） (2022-05-05T13:40:08Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Interpretable AI-based Large-scale 3D Pathloss Prediction Model for enabling Emerging Self-Driving Networks [3.710841042000923]
本稿では,新しい鍵予測器を応用した機械学習モデルを提案する。予測,一般化,計算性能の観点から各種MLアルゴリズムの性能を定量的に評価することにより,光グラディエントブースティングマシン(LightGBM)アルゴリズムが全体として他のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-01-30T19:50:16Z)
Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。 Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文参考訳（メタデータ） (2021-10-08T17:15:47Z)
Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文参考訳（メタデータ） (2021-06-14T15:40:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。