論文の概要: HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers
- arxiv url: http://arxiv.org/abs/2302.09632v1
- Date: Sun, 19 Feb 2023 17:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 17:22:36.893968
- Title: HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers
- Title(参考訳): HomoDistil: トレーニング済みトランスのタスク非依存蒸留
- Authors: Chen Liang, Haoming Jiang, Zheng Li, Xianfeng Tang, Bin Yin and Tuo
Zhao
- Abstract要約: 本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
- 参考スコア(独自算出の注目度): 49.79405257763856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has been shown to be a powerful model compression
approach to facilitate the deployment of pre-trained language models in
practice. This paper focuses on task-agnostic distillation. It produces a
compact pre-trained model that can be easily fine-tuned on various tasks with
small computational costs and memory footprints. Despite the practical
benefits, task-agnostic distillation is challenging. Since the teacher model
has a significantly larger capacity and stronger representation power than the
student model, it is very difficult for the student to produce predictions that
match the teacher's over a massive amount of open-domain training data. Such a
large prediction discrepancy often diminishes the benefits of knowledge
distillation. To address this challenge, we propose Homotopic Distillation
(HomoDistil), a novel task-agnostic distillation approach equipped with
iterative pruning. Specifically, we initialize the student model from the
teacher model, and iteratively prune the student's neurons until the target
width is reached. Such an approach maintains a small discrepancy between the
teacher's and student's predictions throughout the distillation process, which
ensures the effectiveness of knowledge transfer. Extensive experiments
demonstrate that HomoDistil achieves significant improvements on existing
baselines.
- Abstract(参考訳): 知識蒸留は、訓練済み言語モデルの実践的展開を容易にする強力なモデル圧縮アプローチであることが示されている。
本稿ではタスク非依存蒸留に焦点を当てる。
これは小さな計算コストとメモリフットプリントで様々なタスクで簡単に微調整できるコンパクトな事前学習モデルを生成する。
実際の利点にもかかわらず、タスク非依存の蒸留は困難である。
教師モデルは,生徒モデルよりもはるかに容量が大きく,表現力も強いため,大量のオープンドメイントレーニングデータに対して,教師と一致する予測を生成することは極めて困難である。
このような大きな予測の不一致は、しばしば知識蒸留の利益を減少させる。
この課題に対処するため,本研究では,イテレーティブプルーニングを備えた新しいタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
具体的には,教師モデルから学生モデルを初期化し,対象の幅に達するまで反復的に生徒のニューロンを刺激する。
このようなアプローチは, 蒸留過程を通して, 教師と生徒の予測の差を小さく保ち, 知識伝達の有効性を保証している。
大規模な実験により、HomoDistilは既存のベースラインを大幅に改善した。
関連論文リスト
- Progressive distillation induces an implicit curriculum [44.528775476168654]
より良い教師は必ずしも良い生徒を産むとは限らない。
この原理を実証的に検証した1つの変種はプログレッシブ蒸留であり、そこで学生は教師の連続した中間チェックポイントから学習する。
スパースパリティをサンドボックスとして使用することにより、暗黙のカリキュラムをプログレッシブ蒸留によって学生の学習を加速させる1つのメカニズムとして認識する。
論文 参考訳(メタデータ) (2024-10-07T19:49:24Z) - Sentence-Level or Token-Level? A Comprehensive Study on Knowledge Distillation [25.58020699235669]
知識蒸留は、教師モデルから学生モデルに知識を伝達するものであり、ニューラルネットワーク翻訳において強力な技術として現れている。
本研究では,より複雑な目的(すなわち分布)を持つトークンレベルの蒸留が,単純なシナリオに適していると主張している。
本稿では,ゲーティング機構によるトークンレベルの蒸留と文レベルの蒸留を組み合わせた新しいハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T08:29:56Z) - Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion [29.297959023968165]
そこで本稿では,KGCタスクのためのマスク生成機能に基づくプログレッシブ蒸留法を提案する。
具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。
実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。
論文 参考訳(メタデータ) (2024-01-19T07:34:36Z) - Can a student Large Language Model perform as well as it's teacher? [0.0]
知識蒸留は、高容量の「教師」モデルから流線形の「学生」モデルに知識を伝達することを目的としている。
本稿では,知識蒸留のパラダイムについて概観する。
論文 参考訳(メタデータ) (2023-10-03T20:34:59Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。