論文の概要: ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval
- arxiv url: http://arxiv.org/abs/2205.09153v1
- Date: Wed, 18 May 2022 18:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:12:37.807210
- Title: ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval
- Title(参考訳): ERNIE-Search:Dense Passage Retrievalのためのセルフオンザフライ蒸留によるデュアルエンコーダによるクロスエンコーダのブリッジ
- Authors: Yuxiang Lu, Yiding Liu, Jiaxiang Liu, Yunsheng Shi, Zhengjie Huang,
Shikun Feng Yu Sun, Hao Tian, Hua Wu, Shuaiqiang Wang, Dawei Yin, Haifeng
Wang
- Abstract要約: 両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
- 参考スコア(独自算出の注目度): 54.54667085792404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural retrievers based on pre-trained language models (PLMs), such as
dual-encoders, have achieved promising performance on the task of open-domain
question answering (QA). Their effectiveness can further reach new
state-of-the-arts by incorporating cross-architecture knowledge distillation.
However, most of the existing studies just directly apply conventional
distillation methods. They fail to consider the particular situation where the
teacher and student have different structures. In this paper, we propose a
novel distillation method that significantly advances cross-architecture
distillation for dual-encoders. Our method 1) introduces a self on-the-fly
distillation method that can effectively distill late interaction (i.e.,
ColBERT) to vanilla dual-encoder, and 2) incorporates a cascade distillation
process to further improve the performance with a cross-encoder teacher.
Extensive experiments are conducted to validate that our proposed solution
outperforms strong baselines and establish a new state-of-the-art on
open-domain QA benchmarks.
- Abstract(参考訳): 二重エンコーダのような事前学習言語モデル(PLM)に基づくニューラルレトリバーは、オープンドメイン質問応答(QA)のタスクにおいて有望な性能を達成した。
その効果は、クロスアーキテクチャの知識蒸留を取り入れることで、新たな最先端に到達できる。
しかし、既存の研究のほとんどは従来の蒸留法を直接適用しているだけである。
彼らは教師と生徒が異なる構造を持つ特定の状況を考えることができない。
本稿では,デュアルエンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
我々の方法
1)バニラ二重エンコーダへの遅延相互作用(すなわちコルベール)を効果的に蒸留できる自己オンザフライ蒸留法の導入と,
2) カスケード蒸留工程を取り入れ, クロスエンコーダ教師による性能向上を図る。
提案手法が強いベースラインを上回り, オープンドメインQAベンチマークに新たな最先端技術を確立することを検証するため, 大規模な実験を行った。
関連論文リスト
- How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval? [99.87554379608224]
クロスエンコーダのクロスモーダル類似度スコア分布は、二重エンコーダの結果がほぼ正常である間により集中する。
強陰性間の相対的な順序だけが有効な知識を伝達する一方、容易な負性間の順序情報はほとんど意味を持たない。
本研究では, コントラスト学習を用いて, 硬質負試料間の相対的な順序を模倣することを目的とした, コントラスト部分式蒸留法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:10:01Z) - Dual Knowledge Distillation for Efficient Sound Event Detection [20.236008919003083]
音響信号中の特定の音とその時間的位置を認識するには,音事象検出(SED)が不可欠である。
本稿では,効率的なSEDシステムの開発を目的とした,二重知識蒸留と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T07:30:32Z) - Query Encoder Distillation via Embedding Alignment is a Strong Baseline
Method to Boost Dense Retriever Online Efficiency [4.254906060165999]
2層のBERTベースのクエリエンコーダであっても、BEIRベンチマークでは完全なDEパフォーマンスの92.5%を維持可能であることを示す。
私たちの発見が、メソッドの複雑さとパフォーマンスの改善の間のトレードオフを再評価することを、コミュニティに促すことを願っています。
論文 参考訳(メタデータ) (2023-06-05T06:53:55Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - DETRDistill: A Universal Knowledge Distillation Framework for
DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。
知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文 参考訳(メタデータ) (2022-11-17T13:35:11Z) - Aligning Logits Generatively for Principled Black-Box Knowledge Distillation [49.43567344782207]
Black-Box Knowledge Distillation (B2KD)は、クラウドからエッジへのモデル圧縮において、サーバ上にホストされる見えないデータとモデルによって定式化された問題である。
民営化と蒸留による2段階のワークフローを形式化する。
そこで本研究では,ブラックボックスの煩雑なモデルを軽量に蒸留するKD (MEKD) を新たに提案する。
論文 参考訳(メタデータ) (2022-05-21T02:38:16Z) - Localization Distillation for Object Detection [134.12664548771534]
物体検出のための従来の知識蒸留法(KD)は、分類ロジットを模倣するのではなく、主に特徴模倣に焦点を当てている。
本稿では,教師から生徒に効率よくローカライズ知識を伝達できる新しいローカライズ蒸留法を提案する。
われわれは,ロジット模倣が特徴模倣より優れることを示すとともに,ロージット模倣が何年もの間,ロージット模倣が不十分であった理由として,ロージット蒸留が欠如していることが重要である。
論文 参考訳(メタデータ) (2022-04-12T17:14:34Z) - Delta Distillation for Efficient Video Processing [68.81730245303591]
デルタ蒸留と呼ばれる新しい知識蒸留方式を提案する。
ビデオフレーム内の時間的冗長性により,これらの時間的変動を効果的に蒸留できることを実証した。
副産物として、デルタ蒸留は教師モデルの時間的一貫性を向上させる。
論文 参考訳(メタデータ) (2022-03-17T20:13:30Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。