論文の概要: Vanilla Transformers are Transfer Capability Teachers
- arxiv url: http://arxiv.org/abs/2403.01994v1
- Date: Mon, 4 Mar 2024 12:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:46:33.165763
- Title: Vanilla Transformers are Transfer Capability Teachers
- Title(参考訳): バニラトランスフォーマーはトランスファー能力の教師
- Authors: Xin Lu, Yanyan Zhao, Bing Qin
- Abstract要約: 本稿では,モデルの事前学習性能と伝達能力が,下流タスク性能の合同決定要因であることを示す。
バニラモデルと比較してMoEモデルは転送能力が劣るため、下流タスクではサブパーパフォーマンスが低下する。
バニラモデルでガイドされたMoEモデルは、強力な事前学習性能と転送能力の両方を達成でき、最終的に下流タスクのパフォーマンスを向上させることができる。
- 参考スコア(独自算出の注目度): 34.24324719229975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Mixture of Experts (MoE) Transformers have garnered increasing
attention due to their advantages in model capacity and computational
efficiency. However, studies have indicated that MoE Transformers underperform
vanilla Transformers in many downstream tasks, significantly diminishing the
practical value of MoE models. To explain this issue, we propose that the
pre-training performance and transfer capability of a model are joint
determinants of its downstream task performance. MoE models, in comparison to
vanilla models, have poorer transfer capability, leading to their subpar
performance in downstream tasks. To address this issue, we introduce the
concept of transfer capability distillation, positing that although vanilla
models have weaker performance, they are effective teachers of transfer
capability. The MoE models guided by vanilla models can achieve both strong
pre-training performance and transfer capability, ultimately enhancing their
performance in downstream tasks. We design a specific distillation method and
conduct experiments on the BERT architecture. Experimental results show a
significant improvement in downstream performance of MoE models, and many
further evidences also strongly support the concept of transfer capability
distillation. Finally, we attempt to interpret transfer capability distillation
and provide some insights from the perspective of model feature.
- Abstract(参考訳): 近年,Mixture of Experts (MoE) 変換器は,モデル容量と計算効率の優位性から注目が集まっている。
しかし、研究によれば、moeトランスフォーマーは多くの下流の作業でバニラトランスフォーマーを弱め、moeモデルの実用価値を著しく低下させた。
この問題を説明するために,モデルの事前学習性能と伝達能力は,下流タスク性能の合同決定要因であることを示す。
バニラモデルと比較してMoEモデルは転送能力が劣るため、下流タスクではサブパーパフォーマンスが低下する。
そこで本研究では,バニラモデルの方が性能が弱いが,伝達能力の効果的な教師であることを示すため,転送能力蒸留の概念を紹介する。
バニラモデルによって導かれたmoeモデルは、強い事前トレーニングパフォーマンスと転送能力の両方を達成でき、最終的には下流タスクのパフォーマンスを向上させることができる。
我々は,特定の蒸留法を設計し,BERTアーキテクチャの実験を行う。
実験の結果,MoEモデルの下流性能は著しく向上し,さらに多くの証拠が伝熱能力蒸留の概念を強く支持している。
最後に,輸送能力の蒸留を解釈し,モデル特徴の観点から考察する。
関連論文リスト
- Towards a Deeper Understanding of Transformer for Residential Non-intrusive Load Monitoring [0.0]
本研究では, 注目層内の隠れ次元数, 注目層数, 注目頭部数, 落下率が変圧器性能に及ぼす影響について検討した。
この研究は、より堅牢で有能なトランスフォーマーモデルの研究と開発のための基盤となることが期待されている。
論文 参考訳(メタデータ) (2024-10-02T09:14:50Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - TDS-CLIP: Temporal Difference Side Network for Image-to-Video Transfer Learning [6.329214318116305]
本稿では,知識伝達と時間的モデリングのバランスをとるために,メモリ効率の良い時間差分側ネットワーク(TDS-CLIP)を提案する。
具体的には、動作特徴の局所的な時間差を効果的に捉えることのできる時間差適応器(TD-Adapter)を導入する。
また,ビデオ中のリッチモーション情報を効率的に学習するために,提案するサイドネットワークを誘導するサイドモーション拡張アダプタ(SME-Adapter)を設計した。
論文 参考訳(メタデータ) (2024-08-20T09:40:08Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - An Empirical Study on the Transferability of Transformer Modules in
Parameter-Efficient Fine-Tuning [18.69409646532038]
本稿では,事前学習したモデルから下流タスクへ知識を伝達するトランスフォーマーモジュールの能力について検討する。
レイヤーノームは訓練可能な重量に制限された知識伝達能力を示す。
論文 参考訳(メタデータ) (2023-02-01T11:20:18Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。