論文の概要: DistillCSE: Distilled Contrastive Learning for Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2310.13499v2
- Date: Mon, 30 Oct 2023 09:23:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 22:13:21.177863
- Title: DistillCSE: Distilled Contrastive Learning for Sentence Embeddings
- Title(参考訳): DistillCSE: 文埋め込みのための蒸留コントラスト学習
- Authors: Jiahao Xu and Wei Shao and Lihui Chen and Lemao Liu
- Abstract要約: 本稿では,知識蒸留による自己学習パラダイムの下で,コントラスト学習を行うDistillCSEフレームワークを提案する。
DistillCSEの潜在的な利点は、自給自足機能である: ベースモデルを使用してさらなる監視信号を提供することで、知識蒸留を通じてより強力なモデルを学ぶことができる。
本稿では, 暗黙の正規化としてのグループ-Pシャッフル戦略と, 複数の教師コンポーネントのロジット平均化という, 知識蒸留の単純かつ効果的な方法を提案する。
- 参考スコア(独自算出の注目度): 32.6620719893457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes the DistillCSE framework, which performs contrastive
learning under the self-training paradigm with knowledge distillation. The
potential advantage of DistillCSE is its self-enhancing feature: using a base
model to provide additional supervision signals, a stronger model may be
learned through knowledge distillation. However, the vanilla DistillCSE through
the standard implementation of knowledge distillation only achieves marginal
improvements due to severe overfitting. The further quantitative analyses
demonstrate the reason that the standard knowledge distillation exhibits a
relatively large variance of the teacher model's logits due to the essence of
contrastive learning. To mitigate the issue induced by high variance, this
paper accordingly proposed two simple yet effective solutions for knowledge
distillation: a Group-P shuffling strategy as an implicit regularization and
the averaging logits from multiple teacher components. Experiments on standard
benchmarks demonstrate that the proposed DistillCSE outperforms many strong
baseline methods and yields a new state-of-the-art performance.
- Abstract(参考訳): 本稿では,知識蒸留による自己学習パラダイムの下で,コントラスト学習を行うDistillCSEフレームワークを提案する。
DistillCSEの潜在的な利点は、自給自足機能である: ベースモデルを使用してさらなる監視信号を提供することで、知識蒸留を通じてより強力なモデルを学ぶことができる。
しかしながら、知識蒸留の標準的な実装によるバニラ蒸留は、過度な過剰フィットによる限界的な改善しか達成できない。
さらに定量的に分析した結果, 標準知識蒸留は, コントラスト学習の本質から, 教師モデルのロジットに比較的大きなばらつきがあることが明らかになった。
そこで本研究では,高分散によって引き起こされる問題を緩和するため,グループ・Pシャッフル戦略を暗黙の正規化として提案し,複数の教師成分から平均ロジットを抽出した。
標準ベンチマークによる実験では、提案法が多くの強力なベースライン法を上回り、新たな最先端性能をもたらすことが示されている。
関連論文リスト
- MLKD-BERT: Multi-level Knowledge Distillation for Pre-trained Language Models [4.404914701832396]
本研究では,教師-学生の枠組みにおける多段階知識を蒸留するための知識蒸留手法MLKD-BERTを提案する。
本手法は, BERTにおける最先端の知識蒸留法より優れている。
さらに、MLKD-BERTは、生徒の注意番号を柔軟に設定でき、性能低下を少なく抑えることができる。
論文 参考訳(メタデータ) (2024-07-03T03:03:30Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。
知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文 参考訳(メタデータ) (2022-11-17T13:35:11Z) - A Novel Self-Knowledge Distillation Approach with Siamese Representation
Learning for Action Recognition [6.554259611868312]
自己知識蒸留は、学生のパフォーマンスを高めるために、重いネットワーク(教師)から小さなネットワーク(学生)への知識の効果的な伝達である。
本稿では,シームズ表現学習による新しい自己知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-09-03T01:56:58Z) - Mind the Gap in Distilling StyleGANs [100.58444291751015]
StyleGANファミリは、非条件生成のためのGAN(Generative Adversarial Networks)として最も人気のあるものの一つである。
本稿では,StyleGAN-likeアーキテクチャの蒸留に関する総合的研究について述べる。
論文 参考訳(メタデータ) (2022-08-18T14:18:29Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。