論文の概要: Improved Knowledge Distillation for Pre-trained Language Models via
Knowledge Selection
- arxiv url: http://arxiv.org/abs/2302.00444v1
- Date: Wed, 1 Feb 2023 13:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 12:57:32.751396
- Title: Improved Knowledge Distillation for Pre-trained Language Models via
Knowledge Selection
- Title(参考訳): 知識選択による事前学習言語モデルの知識蒸留の改善
- Authors: Chenglong Wang, Yi Lu, Yongyu Mu, Yimin Hu, Tong Xiao and Jingbo Zhu
- Abstract要約: 本稿では, 知識蒸留プロセスにおいて, 適切な知識を選択するためのアクター批判的アプローチを提案する。
GLUEデータセットによる実験結果から,本手法はいくつかの強い知識蒸留基準を著しく上回ることがわかった。
- 参考スコア(独自算出の注目度): 35.515135913846386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation addresses the problem of transferring knowledge from a
teacher model to a student model. In this process, we typically have multiple
types of knowledge extracted from the teacher model. The problem is to make
full use of them to train the student model. Our preliminary study shows that:
(1) not all of the knowledge is necessary for learning a good student model,
and (2) knowledge distillation can benefit from certain knowledge at different
training steps. In response to these, we propose an actor-critic approach to
selecting appropriate knowledge to transfer during the process of knowledge
distillation. In addition, we offer a refinement of the training algorithm to
ease the computational burden. Experimental results on the GLUE datasets show
that our method outperforms several strong knowledge distillation baselines
significantly.
- Abstract(参考訳): 知識蒸留は、教師モデルから生徒モデルへの知識伝達の問題に対処する。
このプロセスでは、教師モデルから抽出された複数の種類の知識が典型的に得られます。
問題は、学生モデルをトレーニングするためにそれらを完全に利用することです。
予備研究では,(1)よい学習モデルを学ぶためにはすべての知識が必要ではないこと,(2)知識蒸留は異なる訓練ステップで特定の知識の恩恵を受けること,などが示されている。
これに対応するために,我々は,知識蒸留の過程で伝達する適切な知識を選択するアクター批判的手法を提案する。
さらに,計算負担を軽減するためのトレーニングアルゴリズムの改良も提供する。
GLUEデータセットによる実験結果から,本手法はいくつかの強い知識蒸留基準を著しく上回ることがわかった。
関連論文リスト
- AD-KD: Attribution-Driven Knowledge Distillation for Language Model
Compression [26.474962405945316]
本稿では,事前学習言語モデルを圧縮するための新しい帰属駆動型知識蒸留手法を提案する。
モデル推論と一般化の知識伝達を強化するため,教師のすべての潜在的判断に対する多視点帰属蒸留について検討する。
論文 参考訳(メタデータ) (2023-05-17T07:40:12Z) - Adaptively Integrated Knowledge Distillation and Prediction Uncertainty
for Continual Learning [71.43841235954453]
現在のディープラーニングモデルは、新しい知識を継続的に学習するときに、古い知識を破滅的に忘れることに悩まされることが多い。
この問題を軽減する既存の戦略は、古い知識(安定性)の維持と新しい知識(塑性)の学習のトレードオフを解消することが多い。
論文 参考訳(メタデータ) (2023-01-18T05:36:06Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Learn From the Past: Experience Ensemble Knowledge Distillation [34.561007802532224]
本稿では,教師の知識伝達経験を統合した新しい知識蒸留法を提案する。
教師モデルの学習過程から適度な数の中間モデルを均一に保存し,これらの中間モデルの知識をアンサンブル手法で統合する。
意外な結論は、強いアンサンブルの教師が必ずしも強い学生を生み出すとは限らないことである。
論文 参考訳(メタデータ) (2022-02-25T04:05:09Z) - Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文 参考訳(メタデータ) (2021-12-04T02:25:46Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - A Selective Survey on Versatile Knowledge Distillation Paradigm for
Neural Network Models [3.770437296936382]
本稿では, 知識蒸留の3つの重要な要素が, 知識と損失である, 教師-学生パラダイム, 蒸留プロセスである,という仮説から, 知識蒸留の特徴を概観する。
本稿では, 知識蒸留における今後の課題として, 性能向上の分析分析を研究対象とする説明可能な知識蒸留と, 深層学習コミュニティにおける熱い研究課題である自己教師型学習について述べる。
論文 参考訳(メタデータ) (2020-11-30T05:22:02Z) - Introspective Learning by Distilling Knowledge from Online
Self-explanation [36.91213895208838]
本稿では,オンライン自己説明から知識を抽出し,イントロスペクティブ学習の実装を提案する。
イントロスペクティブ学習法で訓練されたモデルは、標準学習法で訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2020-09-19T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。