論文の概要: PROD: Progressive Distillation for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2209.13335v3
- Date: Sat, 24 Jun 2023 10:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 00:48:38.278946
- Title: PROD: Progressive Distillation for Dense Retrieval
- Title(参考訳): PROD:Dense Retrievalのためのプログレッシブ蒸留
- Authors: Zhenghao Lin, Yeyun Gong, Xiao Liu, Hang Zhang, Chen Lin, Anlei Dong,
Jian Jiao, Jingwen Lu, Daxin Jiang, Rangan Majumder, Nan Duan
- Abstract要約: 良質な教師モデルでは,教師と生徒の間には不可解なギャップがあるため,蒸留によって悪い生徒が生まれることが一般的である。
本稿では,高密度検索のためのプログレッシブ蒸留法であるPRDを提案する。
- 参考スコア(独自算出の注目度): 65.83300173604384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is an effective way to transfer knowledge from a
strong teacher to an efficient student model. Ideally, we expect the better the
teacher is, the better the student. However, this expectation does not always
come true. It is common that a better teacher model results in a bad student
via distillation due to the nonnegligible gap between teacher and student. To
bridge the gap, we propose PROD, a PROgressive Distillation method, for dense
retrieval. PROD consists of a teacher progressive distillation and a data
progressive distillation to gradually improve the student. We conduct extensive
experiments on five widely-used benchmarks, MS MARCO Passage, TREC Passage 19,
TREC Document 19, MS MARCO Document and Natural Questions, where PROD achieves
the state-of-the-art within the distillation methods for dense retrieval. The
code and models will be released.
- Abstract(参考訳): 知識蒸留は、強力な教師から効率的な生徒モデルに知識を移す効果的な方法である。
理想的には、先生が良いこと、生徒が良いことを期待する。
しかし、この期待は必ずしも実現しない。
良質な教師モデルでは,教師と生徒の間には不可解なギャップがあるため,蒸留によって悪い生徒が生まれることが一般的である。
このギャップを埋めるため,高密度検索のためのプログレッシブ蒸留法であるPRDを提案する。
PRODは、教師のプログレッシブ蒸留とデータプログレッシブ蒸留からなり、学生を徐々に改善させる。
我々は,広く使用されている5つのベンチマーク,MS MARCO Passage, TREC Passage 19, TREC Document 19, MS MARCO Document and Natural Questionsについて広範な実験を行った。
コードとモデルがリリースされます。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation [52.53446712834569]
LGTM(Learning Good Teacher Matters)は,教師の学習プロセスに蒸留の影響を組み込むための効果的な訓練手法である。
我々のLGTMはGLUEベンチマークで6つのテキスト分類タスクに基づいて10の共通知識蒸留基準を上回ります。
論文 参考訳(メタデータ) (2023-05-16T17:50:09Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Controlling the Quality of Distillation in Response-Based Network
Compression [0.0]
圧縮ネットワークの性能は蒸留の品質によって管理される。
教師と学生のペアは、教師の訓練中にバッチサイズとエポック数のスイートスポットを見つけることで、蒸留の質を向上させることができる。
論文 参考訳(メタデータ) (2021-12-19T02:53:51Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Channel Distillation: Channel-Wise Attention for Knowledge Distillation [3.6269274596116476]
本稿では,2つの蒸留方法と損失崩壊戦略を含む新しい蒸留法を提案する。
まず、チャンネル蒸留(CD)が教師から生徒にチャネル情報を転送する。
第二に、指導的知識蒸留(GKD)は、生徒が教師の正しい出力を模倣することしかできない。
論文 参考訳(メタデータ) (2020-06-02T14:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。