論文の概要: Distilling Dense Representations for Ranking using Tightly-Coupled
Teachers
- arxiv url: http://arxiv.org/abs/2010.11386v1
- Date: Thu, 22 Oct 2020 02:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 07:07:11.255229
- Title: Distilling Dense Representations for Ranking using Tightly-Coupled
Teachers
- Title(参考訳): タイトカップリング教師を用いたランク付けのための蒸留度表現
- Authors: Sheng-Chieh Lin, Jheng-Hong Yang, Jimmy Lin
- Abstract要約: 我々は最近提案された後期相互作用ColBERTモデルを改善するために知識蒸留を適用した。
ColBERT の表現型 MaxSim 演算子から知識を抽出し、関連度スコアを単純な点積に変換する。
提案手法はクエリ待ち時間を改善し,ColBERTの面倒なストレージ要件を大幅に削減する。
- 参考スコア(独自算出の注目度): 52.85472936277762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach to ranking with dense representations that applies
knowledge distillation to improve the recently proposed late-interaction
ColBERT model. Specifically, we distill the knowledge from ColBERT's expressive
MaxSim operator for computing relevance scores into a simple dot product, thus
enabling single-step ANN search. Our key insight is that during distillation,
tight coupling between the teacher model and the student model enables more
flexible distillation strategies and yields better learned representations. We
empirically show that our approach improves query latency and greatly reduces
the onerous storage requirements of ColBERT, while only making modest
sacrifices in terms of effectiveness. By combining our dense representations
with sparse representations derived from document expansion, we are able to
approach the effectiveness of a standard cross-encoder reranker using BERT that
is orders of magnitude slower.
- Abstract(参考訳): 本稿では,最近提案された後期相互作用ColBERTモデルを改善するために知識蒸留を適用した高密度表現を用いたランク付け手法を提案する。
具体的には、ColBERT の表現力のある MaxSim 演算子からの知識を単純な点積に抽出し、単一ステップの ANN 探索を可能にする。
私たちの重要な洞察は、蒸留の間、教師モデルと生徒モデルの密結合により、より柔軟な蒸留戦略が可能になり、より良い学習表現が得られるということです。
提案手法はクエリのレイテンシを向上し,ColBERTの面倒なストレージ要件を大幅に削減すると同時に,有効性という点ではわずかに犠牲にしている。
文書展開から導出される疎表現と密表現を組み合わせることで,BERTを用いた標準的なクロスエンコーダ・リランカの有効性を極端に遅くすることが可能になる。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - Distillation from Heterogeneous Models for Top-K Recommendation [43.83625440616829]
HetCompは、教師の軌跡から一連の知識を伝達することで、学生モデルをガイドするフレームワークである。
HetCompは学生モデルの蒸留品質と一般化を著しく改善する。
論文 参考訳(メタデータ) (2023-03-02T10:23:50Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - RefBERT: Compressing BERT by Referencing to Pre-computed Representations [19.807272592342148]
RefBERTはバニラのTinyBERTを8.1%以上上回り、GLUEベンチマークでBERTBASE$の94%以上のパフォーマンスを達成した。
RefBERTは、BERT$_rm BASE$よりも7.4倍小さく、推論では9.5倍高速である。
論文 参考訳(メタデータ) (2021-06-11T01:22:08Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。