論文の概要: On the Representation Collapse of Sparse Mixture of Experts
- arxiv url: http://arxiv.org/abs/2204.09179v1
- Date: Wed, 20 Apr 2022 01:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 13:29:20.204733
- Title: On the Representation Collapse of Sparse Mixture of Experts
- Title(参考訳): まばらな混合専門家の表象崩壊について
- Authors: Zewen Chi, Li Dong, Shaohan Huang, Damai Dai, Shuming Ma, Barun Patra,
Saksham Singhal, Payal Bajaj, Xia Song, Furu Wei
- Abstract要約: 専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
- 参考スコア(独自算出の注目度): 102.83396489230375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse mixture of experts provides larger model capacity while requiring a
constant computational overhead. It employs the routing mechanism to distribute
input tokens to the best-matched experts according to their hidden
representations. However, learning such a routing mechanism encourages token
clustering around expert centroids, implying a trend toward representation
collapse. In this work, we propose to estimate the routing scores between
tokens and experts on a low-dimensional hypersphere. We conduct extensive
experiments on cross-lingual language model pre-training and fine-tuning on
downstream tasks. Experimental results across seven multilingual benchmarks
show that our method achieves consistent gains. We also present a comprehensive
analysis on the representation and routing behaviors of our models. Our method
alleviates the representation collapse issue and achieves more consistent
routing than the baseline mixture-of-experts methods.
- Abstract(参考訳): 専門家のスパース混合物は、一定の計算オーバーヘッドを必要としながら、より大きなモデルの容量を提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、このようなルーティングメカニズムを学ぶことで、エキスパートセンタロイドの周りのトークンクラスタリングが促進され、表現の崩壊への傾向が示唆される。
本研究では,低次元超球面上でトークンと専門家間のルーティングスコアを推定する。
我々は,下流タスクにおける言語横断モデルの事前学習と微調整に関する広範囲な実験を行う。
7つの多言語ベンチマークにおける実験結果から,本手法は一貫して得られることがわかった。
また,モデルの表現とルーティングの挙動を総合的に解析する。
提案手法は,表現崩壊問題を緩和し,ベースライン混在手法よりも一貫したルーティングを実現する。
関連論文リスト
- Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Local Competition and Stochasticity for Adversarial Robustness in Deep
Learning [8.023314613846418]
本研究は, 深層学習における対角的堅牢性に対処し, 深層ネットワークと局部的勝者のアクティベーションを考慮した。
このタイプのネットワークユニットは、各モデル層からスパース表現を生じさせ、ユニットは1つのユニットだけがゼロでない出力を生成するブロックに編成される。
論文 参考訳(メタデータ) (2021-01-04T17:40:52Z) - Making Neural Networks Interpretable with Attribution: Application to
Implicit Signals Prediction [11.427019313283997]
本稿では,属性処理のための解釈可能なディープニューラルネットワークの新たな定式化を提案する。
マスク付きの重量を使って隠れた特徴を深く評価し、いくつかの入力制限されたサブネットワークに分割し、専門家の強化された混合として訓練する。
論文 参考訳(メタデータ) (2020-08-26T06:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。