論文の概要: Causal Distillation for Language Models
- arxiv url: http://arxiv.org/abs/2112.02505v1
- Date: Sun, 5 Dec 2021 08:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 09:34:01.721467
- Title: Causal Distillation for Language Models
- Title(参考訳): 言語モデルのための因果蒸留
- Authors: Zhengxuan Wu, Atticus Geiger, Josh Rozner, Elisa Kreiss, Hanson Lu,
Thomas Icard, Christopher Potts, Noah D. Goodman
- Abstract要約: 本研究は,教員の因果計算過程を模倣することを奨励する第3の目的で蒸留を増強することが有益であることを示す。
BERTの標準的な蒸留と比較すると、IITによる蒸留はウィキペディアの難易度を低下させる。
- 参考スコア(独自算出の注目度): 23.68246698789134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distillation efforts have led to language models that are more compact and
efficient without serious drops in performance. The standard approach to
distillation trains a student model against two objectives: a task-specific
objective (e.g., language modeling) and an imitation objective that encourages
the hidden states of the student model to be similar to those of the larger
teacher model. In this paper, we show that it is beneficial to augment
distillation with a third objective that encourages the student to imitate the
causal computation process of the teacher through interchange intervention
training(IIT). IIT pushes the student model to become a causal abstraction of
the teacher model - a simpler model with the same causal structure. IIT is
fully differentiable, easily implemented, and combines flexibly with other
objectives. Compared with standard distillation of BERT, distillation via IIT
results in lower perplexity on Wikipedia (masked language modeling) and marked
improvements on the GLUE benchmark (natural language understanding), SQuAD
(question answering), and CoNLL-2003 (named entity recognition).
- Abstract(参考訳): 蒸留の取り組みは、パフォーマンスの深刻な低下を伴わずに、よりコンパクトで効率的な言語モデルにつながった。
蒸留の標準的なアプローチは、学生モデルを2つの目的に対して訓練する:タスク固有の目的(例えば言語モデリング)と、学生モデルの隠れ状態がより大きな教師モデルと類似することを奨励する模倣目的である。
本稿では,教師の因果計算過程を相互干渉介入訓練(IIT)を通じて模倣することを奨励する第3の目的で蒸留を増強することが有用であることを示す。
IITは学生モデルを、同じ因果構造を持つより単純なモデルである教師モデルの因果抽象化へと押し上げます。
IITは完全に差別化され、容易に実装され、柔軟に他の目的と組み合わせられる。
BERTの標準的な蒸留と比較すると、IITによる蒸留はウィキペディアの難易度を低くし、GLUEベンチマーク(自然言語理解)、SQuAD(質問応答)、CoNLL-2003(エンティティ認識)を著しく改善した。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Improving Neural Topic Models with Wasserstein Knowledge Distillation [0.8962460460173959]
本稿では,トピックの品質を損なうことなく,文脈化されたトピックモデルを圧縮する知識蒸留フレームワークを提案する。
実験により, 知識蒸留の訓練を受けた学生は, 本来の学生モデルよりも, トピックコヒーレンスをはるかに高い精度で達成できることがわかった。
論文 参考訳(メタデータ) (2023-03-27T16:07:44Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Inducing Causal Structure for Interpretable Neural Networks [23.68246698789134]
インターチェンジ・インターチェンジ・トレーニング(IIT)について紹介する。
In IIT, (1)align variables in the causal model with representations in the Neural model and (2) training a neural model to match the counterfactual behavior of the causal model on a base input。
IITは完全に微分可能で、柔軟に他の目的と組み合わせ、ターゲット因果モデルがニューラルネットワークの因果抽象化であることを保証します。
論文 参考訳(メタデータ) (2021-12-01T21:07:01Z) - Localization Distillation for Object Detection [79.78619050578997]
物体検出のためのローカライズ蒸留(LD)を提案する。
我々のldは、バウンディングボックスの一般局在表現を採用することで標準kdとして定式化することができる。
教師モデルと学生モデルとのギャップを埋めるための教師アシスタント(TA)戦略を提案します。
論文 参考訳(メタデータ) (2021-02-24T12:26:21Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。