論文の概要: LEAD: Liberal Feature-based Distillation for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2212.05225v2
- Date: Mon, 11 Dec 2023 09:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 03:21:06.626078
- Title: LEAD: Liberal Feature-based Distillation for Dense Retrieval
- Title(参考訳): LEAD:Dense Retrievalのためのリベラルな特徴に基づく蒸留
- Authors: Hao Sun, Xiao Liu, Yeyun Gong, Anlei Dong, Jingwen Lu, Yan Zhang,
Linjun Yang, Rangan Majumder, Nan Duan
- Abstract要約: 知識蒸留は、強い教師モデルから比較的弱い学生モデルに知識を伝達するためにしばしば用いられる。
従来のメソッドにはレスポンスベースのメソッドとフィーチャーベースのメソッドが含まれる。
本稿では,リベラルな特徴量に基づく蒸留法(LEAD)を提案する。
- 参考スコア(独自算出の注目度): 67.48820723639601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is often used to transfer knowledge from a strong
teacher model to a relatively weak student model. Traditional methods include
response-based methods and feature-based methods. Response-based methods are
widely used but suffer from lower upper limits of performance due to their
ignorance of intermediate signals, while feature-based methods have constraints
on vocabularies, tokenizers and model architectures. In this paper, we propose
a liberal feature-based distillation method (LEAD). LEAD aligns the
distribution between the intermediate layers of teacher model and student
model, which is effective, extendable, portable and has no requirements on
vocabularies, tokenizers, or model architectures. Extensive experiments show
the effectiveness of LEAD on widely-used benchmarks, including MS MARCO Passage
Ranking, TREC 2019 DL Track, MS MARCO Document Ranking and TREC 2020 DL Track.
Our code is available in https://github.com/microsoft/SimXNS/tree/main/LEAD.
- Abstract(参考訳): 知識蒸留は、強い教師モデルから比較的弱い学生モデルに知識を伝達するためにしばしば用いられる。
従来のメソッドにはレスポンスベースのメソッドとフィーチャーベースのメソッドが含まれる。
応答に基づく手法は広く用いられているが、中間信号の無視により性能の上限が低く、特徴に基づく手法は語彙、トークン化器、モデルアーキテクチャに制約がある。
本稿では,リベラルな特徴量に基づく蒸留法(LEAD)を提案する。
LEADは、教師モデルの中間層と学生モデルの分布を整合させ、効果的で拡張可能でポータブルであり、語彙、トークン化、モデルアーキテクチャの要件を持たない。
大規模な実験では、MS MARCO Passage Ranking、TREC 2019 DL Track、MS MARCO Document Ranking、TREC 2020 DL Trackなど、広く使用されているベンチマークにおけるLEADの有効性が示されている。
私たちのコードはhttps://github.com/microsoft/SimXNS/tree/main/LEADで利用可能です。
関連論文リスト
- Keep Decoding Parallel with Effective Knowledge Distillation from
Language Models to End-to-end Speech Recognisers [19.812986973537143]
本研究では,BERT教師モデルから中間層を用いた自動音声認識(ASR)モデルへの知識蒸留(KD)の新たなアプローチを提案する。
本手法は,中間層と最終層の両方を用いて,言語モデル(LM)情報をより効果的にASRモデルに蒸留可能であることを示す。
提案手法を用いて,外部LMの浅層融合よりも高い認識精度を実現し,高速並列復号化を実現する。
論文 参考訳(メタデータ) (2024-01-22T05:46:11Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - It's All in the Head: Representation Knowledge Distillation through
Classifier Sharing [0.29360071145551075]
教師と学生間の分類器共有による表現蒸留の促進のための2つのアプローチを提案する。
提案手法は, 画像分類, きめ細かい分類, 顔認証など, 様々なデータセットやタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-01-18T13:10:36Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Partial Is Better Than All: Revisiting Fine-tuning Strategy for Few-shot
Learning [76.98364915566292]
一般的なプラクティスは、まずベースセット上でモデルをトレーニングし、その後、微調整によって新しいクラスに移行することである。
本稿では,基本モデル内の特定の層を凍結あるいは微調整することにより,部分的知識の伝達を提案する。
提案手法の有効性を実証するために, CUB と mini-ImageNet の広範な実験を行った。
論文 参考訳(メタデータ) (2021-02-08T03:27:05Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down
Distillation [153.56211546576978]
本研究では,ラベル生成器を用いて高い適合性を有するソフトターゲットを生成することを提案する。
このラベルジェネレータを最適化するためにメタ学習技術を用いることができる。
実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。
論文 参考訳(メタデータ) (2020-08-27T13:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。