論文の概要: Vanilla Transformers are Transfer Capability Teachers
- arxiv url: http://arxiv.org/abs/2403.01994v1
- Date: Mon, 4 Mar 2024 12:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:46:33.165763
- Title: Vanilla Transformers are Transfer Capability Teachers
- Title(参考訳): バニラトランスフォーマーはトランスファー能力の教師
- Authors: Xin Lu, Yanyan Zhao, Bing Qin
- Abstract要約: 本稿では,モデルの事前学習性能と伝達能力が,下流タスク性能の合同決定要因であることを示す。
バニラモデルと比較してMoEモデルは転送能力が劣るため、下流タスクではサブパーパフォーマンスが低下する。
バニラモデルでガイドされたMoEモデルは、強力な事前学習性能と転送能力の両方を達成でき、最終的に下流タスクのパフォーマンスを向上させることができる。
- 参考スコア(独自算出の注目度): 34.24324719229975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Mixture of Experts (MoE) Transformers have garnered increasing
attention due to their advantages in model capacity and computational
efficiency. However, studies have indicated that MoE Transformers underperform
vanilla Transformers in many downstream tasks, significantly diminishing the
practical value of MoE models. To explain this issue, we propose that the
pre-training performance and transfer capability of a model are joint
determinants of its downstream task performance. MoE models, in comparison to
vanilla models, have poorer transfer capability, leading to their subpar
performance in downstream tasks. To address this issue, we introduce the
concept of transfer capability distillation, positing that although vanilla
models have weaker performance, they are effective teachers of transfer
capability. The MoE models guided by vanilla models can achieve both strong
pre-training performance and transfer capability, ultimately enhancing their
performance in downstream tasks. We design a specific distillation method and
conduct experiments on the BERT architecture. Experimental results show a
significant improvement in downstream performance of MoE models, and many
further evidences also strongly support the concept of transfer capability
distillation. Finally, we attempt to interpret transfer capability distillation
and provide some insights from the perspective of model feature.
- Abstract(参考訳): 近年,Mixture of Experts (MoE) 変換器は,モデル容量と計算効率の優位性から注目が集まっている。
しかし、研究によれば、moeトランスフォーマーは多くの下流の作業でバニラトランスフォーマーを弱め、moeモデルの実用価値を著しく低下させた。
この問題を説明するために,モデルの事前学習性能と伝達能力は,下流タスク性能の合同決定要因であることを示す。
バニラモデルと比較してMoEモデルは転送能力が劣るため、下流タスクではサブパーパフォーマンスが低下する。
そこで本研究では,バニラモデルの方が性能が弱いが,伝達能力の効果的な教師であることを示すため,転送能力蒸留の概念を紹介する。
バニラモデルによって導かれたmoeモデルは、強い事前トレーニングパフォーマンスと転送能力の両方を達成でき、最終的には下流タスクのパフォーマンスを向上させることができる。
我々は,特定の蒸留法を設計し,BERTアーキテクチャの実験を行う。
実験の結果,MoEモデルの下流性能は著しく向上し,さらに多くの証拠が伝熱能力蒸留の概念を強く支持している。
最後に,輸送能力の蒸留を解釈し,モデル特徴の観点から考察する。
関連論文リスト
- Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - An Empirical Study on the Transferability of Transformer Modules in
Parameter-Efficient Fine-Tuning [18.69409646532038]
本稿では,事前学習したモデルから下流タスクへ知識を伝達するトランスフォーマーモジュールの能力について検討する。
レイヤーノームは訓練可能な重量に制限された知識伝達能力を示す。
論文 参考訳(メタデータ) (2023-02-01T11:20:18Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Distilling the Knowledge from Normalizing Flows [22.578033953780697]
正規化フローは、複数の音声および視覚問題において強力な性能を示す生成モデルの強力なクラスである。
本稿では, 簡易蒸留法を提案し, 画像超解像と音声合成のための現状条件付きフローベースモデルの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-24T00:10:22Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z) - On the Effect of Dropping Layers of Pre-trained Transformer Models [35.25025837133909]
我々は、事前訓練されたモデルにレイヤをドロップする戦略を探求し、下流のGLUEタスクに対するプルーニングの効果を観察する。
BERT、RoBERTa、XLNetのモデルを40%まで、元のパフォーマンスの98%を維持できたのです。
実験の結果,下層が下流のタスク性能を維持する上で最も重要であること,(ii)パラフレーズ検出や文類似性などのタスクは,レイヤの降下に対してより堅牢であること,(iii)異なる目的関数を用いてトレーニングされたモデルが異なる学習パターンを示し,レイヤが低下すること,などの興味深い観察結果が得られた。
論文 参考訳(メタデータ) (2020-04-08T07:09:59Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。