論文の概要: DisCo: Effective Knowledge Distillation For Contrastive Learning of
Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2112.05638v1
- Date: Fri, 10 Dec 2021 16:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:54:02.965412
- Title: DisCo: Effective Knowledge Distillation For Contrastive Learning of
Sentence Embeddings
- Title(参考訳): DisCo: 文埋め込みのコントラスト学習のための効果的な知識蒸留
- Authors: Xing Wu, Chaochen Gao, Jue Wang, Liangjun Zang, Zhongyuan Wang,
Songlin Hu
- Abstract要約: ディスティルコントラスト(DisCo)と呼ばれる知識蒸留フレームワークを提案する。
DisCoは、大きな文埋め込みモデルの能力を、大きな未ラベルデータ上で小さな学生モデルに転送する。
また,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。
- 参考スコア(独自算出の注目度): 36.37939188680754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has been proven suitable for learning sentence
embeddings and can significantly improve the semantic textual similarity (STS)
tasks. Recently, large contrastive learning models, e.g., Sentence-T5, tend to
be proposed to learn more powerful sentence embeddings. Though effective, such
large models are hard to serve online due to computational resources or time
cost limits. To tackle that, knowledge distillation (KD) is commonly adopted,
which can compress a large "teacher" model into a small "student" model but
generally suffer from some performance loss. Here we propose an enhanced KD
framework termed Distill-Contrast (DisCo). The proposed DisCo framework firstly
utilizes KD to transfer the capability of a large sentence embedding model to a
small student model on large unlabelled data, and then finetunes the student
model with contrastive learning on labelled training data. For the KD process
in DisCo, we further propose Contrastive Knowledge Distillation (CKD) to
enhance the consistencies among teacher model training, KD, and student model
finetuning, which can probably improve performance like prompt learning.
Extensive experiments on 7 STS benchmarks show that student models trained with
the proposed DisCo and CKD suffer from little or even no performance loss and
consistently outperform the corresponding counterparts of the same parameter
size. Amazingly, our 110M student model can even outperform the latest
state-of-the-art (SOTA) model, i.e., Sentence-T5(11B), with only 1% parameters.
- Abstract(参考訳): コントラスト学習は文の埋め込み学習に適していることが証明されており、意味的テキスト類似性(STS)タスクを大幅に改善することができる。
近年、Sentence-T5のような大きなコントラスト学習モデルは、より強力な文埋め込みを学ぶために提案される傾向にある。
しかし、そのような大規模なモデルは、計算資源や時間的コスト制限のため、オンラインでは提供し難い。
これを解決するために、知識蒸留(KD)が一般的に採用され、大きな「教師」モデルを小さな「学生」モデルに圧縮することができるが、一般的にはパフォーマンス損失に悩まされる。
本稿では,Distill-Contrast (DisCo) と呼ばれる拡張KDフレームワークを提案する。
提案するdiscoフレームワークは,まずkdを用いて大文埋め込みモデルの能力を小学生モデルに転送し,ラベル付き学習データを用いたコントラスト学習を用いて学生モデルを微調整する。
さらに,DisCoにおけるKDプロセスにおいて,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。
7つのSTSベンチマークの大規模な実験によると、提案されたDisCoとCKDでトレーニングされた学生モデルは、ほとんど、あるいは全くパフォーマンスの損失を受けておらず、同じパラメータサイズの対応するモデルよりも一貫して優れていた。
驚くべきことに、私たちの110万の学生モデルは、最新の最先端(SOTA)モデル、すなわちSentence-T5(11B)を1%のパラメータで上回ります。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Relational Representation Distillation [6.24302896438145]
本稿では,教師モデルと学生モデルの関係を探求し,強化するためにRepresentation Distillation (RRD)を導入する。
自己監督学習の原則に触発されて、正確な複製と類似性に焦点を当てた、リラックスした対照的な損失を使用する。
我々は,CIFAR-100とImageNet ILSVRC-2012において優れた性能を示し,KDと組み合わせた場合,教師ネットワークよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-16T14:56:13Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Pea-KD: Parameter-efficient and Accurate Knowledge Distillation on BERT [20.732095457775138]
知識蒸留(KD)は、モデル圧縮の手法として広く知られている。
Pea-KDは、Shuffled Sharing(SPS)とPretraining with Teacher's Predictions(PTP)の2つの主要部分から構成される。
論文 参考訳(メタデータ) (2020-09-30T17:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。