論文の概要: EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval
- arxiv url: http://arxiv.org/abs/2301.12005v1
- Date: Fri, 27 Jan 2023 22:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:40:45.851421
- Title: EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval
- Title(参考訳): embeddeddistill:情報検索のための幾何学的知識蒸留
- Authors: Seungyeon Kim, Ankit Singh Rawat, Manzil Zaheer, Sadeep Jayasumana,
Veeranjaneyulu Sadhanala, Wittawat Jitkrittum, Aditya Krishna Menon, Rob
Fergus, Sanjiv Kumar
- Abstract要約: 大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本稿では,そのようなモデルを実用化するための蒸留法の改善をめざす。
提案手法は, 検索段階と再評価段階の両方をサポートし, 大規模教師モデルで学習したクエリと文書間の相対幾何学を重要活用する。
- 参考スコア(独自算出の注目度): 83.79667141681418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large neural models (such as Transformers) achieve state-of-the-art
performance for information retrieval (IR). In this paper, we aim to improve
distillation methods that pave the way for the deployment of such models in
practice. The proposed distillation approach supports both retrieval and
re-ranking stages and crucially leverages the relative geometry among queries
and documents learned by the large teacher model. It goes beyond existing
distillation methods in the IR literature, which simply rely on the teacher's
scalar scores over the training data, on two fronts: providing stronger signals
about local geometry via embedding matching and attaining better coverage of
data manifold globally via query generation. Embedding matching provides a
stronger signal to align the representations of the teacher and student models.
At the same time, query generation explores the data manifold to reduce the
discrepancies between the student and teacher where training data is sparse.
Our distillation approach is theoretically justified and applies to both dual
encoder (DE) and cross-encoder (CE) models. Furthermore, for distilling a CE
model to a DE model via embedding matching, we propose a novel dual
pooling-based scorer for the CE model that facilitates a distillation-friendly
embedding geometry, especially for DE student models.
- Abstract(参考訳): 大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)の最先端のパフォーマンスを達成する。
本稿では,このようなモデルを実際に展開するための道を開く蒸留法を改善することを目的としている。
提案手法は, 検索段階と再評価段階の両方をサポートし, 大規模教師モデルで学習したクエリと文書間の相対幾何学を重要活用する。
これは、単に教師のスカラースコアをトレーニングデータ上で頼りにするir文学における既存の蒸留方法を超えている: 埋め込みマッチングによって局所幾何学に関するより強いシグナルを提供し、クエリ生成を通じて世界規模でデータ多様体をよりよくカバーする。
埋め込みマッチングは、教師と生徒モデルの表現を調整するためのより強いシグナルを提供する。
同時に、クエリ生成は、データ多様体を探索し、トレーニングデータがスパースしている生徒と教師の間の不一致を低減する。
我々の蒸留アプローチは理論的に正当化され、デュアルエンコーダ(de)モデルとクロスエンコーダ(ce)モデルの両方に適用できる。
さらに, 埋め込みマッチングによりCEモデルをDモデルに蒸留するために, 特にD学生モデルにおいて, 蒸留フレンドリーな埋め込み幾何学を容易にするCEモデルのための新しい二重プーリングベースのスコアラを提案する。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Context Unaware Knowledge Distillation for Image Retrieval [11.38957822323395]
既存の知識蒸留法では、深い(教師)モデルのロジットやその他の特徴を用いる。
本研究では,教師モデルの知識を標的の文脈で微調整することなく活用する,文脈を意識しない知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:51:39Z) - Anomaly Detection via Reverse Distillation from One-Class Embedding [2.715884199292287]
教師エンコーダと生徒デコーダからなる新しいT-Sモデルを提案する。
生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り込む。
さらに、T-Sモデルにトレーニング可能な1クラスボトルネック埋め込みモジュールを導入する。
論文 参考訳(メタデータ) (2022-01-26T01:48:37Z) - Scene-adaptive Knowledge Distillation for Sequential Recommendation via
Differentiable Architecture Search [19.798931417466456]
シーケンシャル・レコメンデータ・システム(SRS)は、ユーザの動的興味やシーケンシャルな行動パターンをモデル化する能力から、研究ホットスポットとなっている。
モデル表現能力を最大化するために、デフォルトの選択は、より大きく深いネットワークアーキテクチャを適用することである。
本稿では,教師モデルの知識を学生モデルに適応的に圧縮するフレームワークであるAdaRecを提案する。
論文 参考訳(メタデータ) (2021-07-15T07:47:46Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。