論文の概要: Understanding BERT Rankers Under Distillation
- arxiv url: http://arxiv.org/abs/2007.11088v1
- Date: Tue, 21 Jul 2020 20:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:41:17.023819
- Title: Understanding BERT Rankers Under Distillation
- Title(参考訳): 蒸留におけるBERTランキングの理解
- Authors: Luyu Gao, Zhuyun Dai, Jamie Callan
- Abstract要約: 大規模なコーパスで事前訓練されたBERTのような深層言語モデルは、情報検索ランキングシステムに大きな性能向上をもたらした。
推論時の高コストは、現実世界の検索シナリオへのデプロイメントを制限する。
蒸留により, BERT内の探索知識をより小さいランクに転送する方法について検討した。
- 参考スコア(独自算出の注目度): 19.796448408564036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep language models such as BERT pre-trained on large corpus have given a
huge performance boost to the state-of-the-art information retrieval ranking
systems. Knowledge embedded in such models allows them to pick up complex
matching signals between passages and queries. However, the high computation
cost during inference limits their deployment in real-world search scenarios.
In this paper, we study if and how the knowledge for search within BERT can be
transferred to a smaller ranker through distillation. Our experiments
demonstrate that it is crucial to use a proper distillation procedure, which
produces up to nine times speedup while preserving the state-of-the-art
performance.
- Abstract(参考訳): 大規模なコーパスで事前訓練されたBERTのような深層言語モデルは、最先端の情報検索ランキングシステムに大きなパフォーマンス向上をもたらした。
このようなモデルに埋め込まれた知識は、パスとクエリの間の複雑なマッチング信号を拾うことができる。
しかし、推論時の計算コストが高いため、実際の検索シナリオへの展開が制限される。
本稿では, BERT内の検索知識を蒸留によりより小さなランクに転送する方法について検討する。
本実験は, 最先端性能を維持しつつ, 9倍のスピードアップを達成できる適切な蒸留法を用いることが重要であることを示す。
関連論文リスト
- PairDistill: Pairwise Relevance Distillation for Dense Retrieval [35.067998820937284]
本稿ではペアワイズレバレンス蒸留(Pairwise Relevance Distillation, PairDistill)を導入する。
類似した文書間の微妙な区別を提供し、密集した検索モデルの訓練を強化する。
実験の結果、PairDistillは既存の手法よりも優れており、複数のベンチマークで最新の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-10-02T09:51:42Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Distill-VQ: Learning Retrieval Oriented Vector Quantization By
Distilling Knowledge from Dense Embeddings [50.903547893204234]
本稿では,IVF と PQ の学習を知識蒸留フレームワーク内で統合する Distill-VQ を提案する。
VQモジュールは、予測された関連性を再現するために学習される「学生」として扱われる。
これによってDistill-VQは、大量のラベルのないデータから、相当量のトレーニング信号を導き出すことができる。
論文 参考訳(メタデータ) (2022-04-01T03:30:40Z) - BERTVision -- A Parameter-Efficient Approach for Question Answering [0.0]
本稿では,BERTファインチューニングの必要性を大幅に低減する,質問応答に対するパラメータ効率の高い手法を提案する。
提案手法では,各BERTトランス層の隠れ状態アクティベーションから得られる情報を用いて,典型的なBERT推論時に破棄される。
実験の結果,本手法は多岐にわたるQAだけでなく,分類にも有効であり,より広い範囲のタスクに向いていることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T17:16:25Z) - Unsupervised Corpus Aware Language Model Pre-training for Dense Passage
Retrieval [15.238322226336232]
我々は高密度レトリバーの2つの根本問題を特定し,対処する。
我々は最近提案されたCondenser事前学習アーキテクチャを使用し、LM事前学習を通して密接なベクトルに情報を凝縮することを学ぶ。
本稿では,パス埋め込み空間を暖めるために,教師なしコーパスレベルのコントラスト損失を加えたcoCondenserを提案する。
論文 参考訳(メタデータ) (2021-08-12T05:20:27Z) - LRC-BERT: Latent-representation Contrastive Knowledge Distillation for
Natural Language Understanding [12.208166079145538]
本稿では,角距離面から中間層の出力に適合するコントラスト学習に基づく知識蒸留法lrc-bertを提案する。
GLUE(General Language Understanding Evaluation)ベンチマークで8つのデータセットを検証することで、提案したRC-BERTの性能は既存の最先端手法を上回る。
論文 参考訳(メタデータ) (2020-12-14T08:39:38Z) - Distilling Dense Representations for Ranking using Tightly-Coupled
Teachers [52.85472936277762]
我々は最近提案された後期相互作用ColBERTモデルを改善するために知識蒸留を適用した。
ColBERT の表現型 MaxSim 演算子から知識を抽出し、関連度スコアを単純な点積に変換する。
提案手法はクエリ待ち時間を改善し,ColBERTの面倒なストレージ要件を大幅に削減する。
論文 参考訳(メタデータ) (2020-10-22T02:26:01Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Towards Non-task-specific Distillation of BERT via Sentence
Representation Approximation [17.62309851473892]
本稿では,事前学習したBERTを簡単なLSTMモデルに抽出できる文表現近似指向蒸留フレームワークを提案する。
我々のモデルは,任意の文レベル下流タスクに適応するために,微調整による伝達学習を行うことができる。
GLUEベンチマークによる複数のNLPタスクの実験結果から,本手法が他のタスク固有蒸留法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-07T03:03:00Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。