論文の概要: DisCo: Effective Knowledge Distillation For Contrastive Learning of
Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2112.05638v1
- Date: Fri, 10 Dec 2021 16:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:54:02.965412
- Title: DisCo: Effective Knowledge Distillation For Contrastive Learning of
Sentence Embeddings
- Title(参考訳): DisCo: 文埋め込みのコントラスト学習のための効果的な知識蒸留
- Authors: Xing Wu, Chaochen Gao, Jue Wang, Liangjun Zang, Zhongyuan Wang,
Songlin Hu
- Abstract要約: ディスティルコントラスト(DisCo)と呼ばれる知識蒸留フレームワークを提案する。
DisCoは、大きな文埋め込みモデルの能力を、大きな未ラベルデータ上で小さな学生モデルに転送する。
また,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。
- 参考スコア(独自算出の注目度): 36.37939188680754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has been proven suitable for learning sentence
embeddings and can significantly improve the semantic textual similarity (STS)
tasks. Recently, large contrastive learning models, e.g., Sentence-T5, tend to
be proposed to learn more powerful sentence embeddings. Though effective, such
large models are hard to serve online due to computational resources or time
cost limits. To tackle that, knowledge distillation (KD) is commonly adopted,
which can compress a large "teacher" model into a small "student" model but
generally suffer from some performance loss. Here we propose an enhanced KD
framework termed Distill-Contrast (DisCo). The proposed DisCo framework firstly
utilizes KD to transfer the capability of a large sentence embedding model to a
small student model on large unlabelled data, and then finetunes the student
model with contrastive learning on labelled training data. For the KD process
in DisCo, we further propose Contrastive Knowledge Distillation (CKD) to
enhance the consistencies among teacher model training, KD, and student model
finetuning, which can probably improve performance like prompt learning.
Extensive experiments on 7 STS benchmarks show that student models trained with
the proposed DisCo and CKD suffer from little or even no performance loss and
consistently outperform the corresponding counterparts of the same parameter
size. Amazingly, our 110M student model can even outperform the latest
state-of-the-art (SOTA) model, i.e., Sentence-T5(11B), with only 1% parameters.
- Abstract(参考訳): コントラスト学習は文の埋め込み学習に適していることが証明されており、意味的テキスト類似性(STS)タスクを大幅に改善することができる。
近年、Sentence-T5のような大きなコントラスト学習モデルは、より強力な文埋め込みを学ぶために提案される傾向にある。
しかし、そのような大規模なモデルは、計算資源や時間的コスト制限のため、オンラインでは提供し難い。
これを解決するために、知識蒸留(KD)が一般的に採用され、大きな「教師」モデルを小さな「学生」モデルに圧縮することができるが、一般的にはパフォーマンス損失に悩まされる。
本稿では,Distill-Contrast (DisCo) と呼ばれる拡張KDフレームワークを提案する。
提案するdiscoフレームワークは,まずkdを用いて大文埋め込みモデルの能力を小学生モデルに転送し,ラベル付き学習データを用いたコントラスト学習を用いて学生モデルを微調整する。
さらに,DisCoにおけるKDプロセスにおいて,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。
7つのSTSベンチマークの大規模な実験によると、提案されたDisCoとCKDでトレーニングされた学生モデルは、ほとんど、あるいは全くパフォーマンスの損失を受けておらず、同じパラメータサイズの対応するモデルよりも一貫して優れていた。
驚くべきことに、私たちの110万の学生モデルは、最新の最先端(SOTA)モデル、すなわちSentence-T5(11B)を1%のパラメータで上回ります。
関連論文リスト
- Revisiting Knowledge Distillation for Autoregressive Language Models [94.09543805992233]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [58.40950424419147]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Knowledge Distillation with Representative Teacher Keys Based on
Attention Mechanism for Image Classification Model Compression [1.503974529275767]
知識蒸留(KD)はモデルパラメータを減らすためのモデル圧縮の効果的な方法の1つとして認識されている。
注意機構にヒントを得て,代表教師キー(RTK)と呼ばれる新しいKD手法を提案する。
提案するRTKは,最先端の注意に基づくKD手法の分類精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:08:50Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Pea-KD: Parameter-efficient and Accurate Knowledge Distillation on BERT [20.732095457775138]
知識蒸留(KD)は、モデル圧縮の手法として広く知られている。
Pea-KDは、Shuffled Sharing(SPS)とPretraining with Teacher's Predictions(PTP)の2つの主要部分から構成される。
論文 参考訳(メタデータ) (2020-09-30T17:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。