論文の概要: Distillation versus Contrastive Learning: How to Train Your Rerankers
- arxiv url: http://arxiv.org/abs/2507.08336v3
- Date: Thu, 06 Nov 2025 18:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 15:57:27.63658
- Title: Distillation versus Contrastive Learning: How to Train Your Rerankers
- Title(参考訳): 蒸留とコントラスト学習:リランカのトレーニング方法
- Authors: Zhichao Xu, Zhiqi Huang, Shengyao Zhuang, Vivek Srikumar,
- Abstract要約: 本稿では,テキスト・リランカの訓練において,比較学習と知識蒸留を実証的に比較する。
以上の結果から,知識の蒸留は対照的な学習よりもドメイン内およびドメイン外において高い評価が得られることが示唆された。
より大規模で高性能な教師が利用できる場合、知識蒸留を用いてより小さなリランカーを訓練することを推奨する。
- 参考スコア(独自算出の注目度): 33.348388628860754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training effective text rerankers is crucial for information retrieval. Two strategies are widely used: contrastive learning (optimizing directly on ground-truth labels) and knowledge distillation (transferring knowledge from a larger reranker). While both have been studied extensively, a clear comparison of their effectiveness for training cross-encoder rerankers under practical conditions is needed. This paper empirically compares these strategies by training rerankers of different sizes (0.5B, 1.5B, 3B, 7B) and architectures (Transformer, Recurrent) using both methods on the same data, with a strong contrastive learning model acting as the distillation teacher. Our results show that knowledge distillation generally yields better in-domain and out-of-domain ranking performance than contrastive learning when distilling from a more performant teacher model. This finding is consistent across student model sizes and architectures. However, distilling from a teacher of the same capacity does not provide the same advantage, particularly for out-of-domain tasks. These findings offer practical guidance for choosing a training strategy based on available teacher models. We recommend using knowledge distillation to train smaller rerankers if a larger, more performant teacher is accessible; in its absence, contrastive learning remains a robust baseline. Our code implementation is made available to facilitate reproducbility.
- Abstract(参考訳): 効果的なテキストリランカの訓練は情報検索に不可欠である。
コントラスト学習(地味ラベルに直接最適化する)と知識蒸留(より大きなリランカーから知識を伝達する)の2つの戦略が広く用いられている。
どちらも広く研究されているが、実践的な条件下でのクロスエンコーダリランカーのトレーニングの有効性について明らかに比較する必要がある。
本稿では, 異なるサイズ (0.5B, 1.5B, 3B, 7B) のリランカと同一データを用いたアーキテクチャ (Transformer, Recurrent) を, 蒸留教師として機能する強いコントラスト学習モデルを用いて, これらの戦略を実証的に比較した。
以上の結果から, 知識蒸留は, 教師モデルからの蒸留において, 比較学習よりもドメイン内, ドメイン外, ドメイン内におけるランク付け性能が向上することが示唆された。
この発見は、学生モデルのサイズとアーキテクチャに一貫性がある。
しかし、同じ能力の教師からの蒸留は、特にドメイン外タスクにおいて、同じ利点をもたらすものではない。
これらの知見は、利用可能な教師モデルに基づいたトレーニング戦略を選択するための実践的なガイダンスを提供する。
より大きく、より優れた教師がアクセス可能であれば、知識蒸留を用いて、より小さなリランカーを訓練することを推奨する。
私たちのコード実装は再現性を促進するために利用できます。
関連論文リスト
- Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation [3.301728339780329]
本稿では,資源量の多い教師モデルを必要としない知識蒸留効率を向上させる革新的な手法を提案する。
そこで本研究では,ソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。
CIFAR-100、Tiny Imagenet、Fashion MNISTなど、さまざまなデータセットに関する実験は、我々のアプローチの優れたリソース効率を実証している。
論文 参考訳(メタデータ) (2024-04-15T15:54:30Z) - Cooperative Knowledge Distillation: A Learner Agnostic Approach [15.414204257189596]
我々は、多くのモデルが学生と教師の両方として機能する新しいタイプの知識蒸留を定式化する。
異なるモデルが異なる長所と短所を持っている可能性があるため、すべてのモデルは生徒または教師として振る舞うことができる。
論文 参考訳(メタデータ) (2024-02-02T17:31:50Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - ARDIR: Improving Robustness using Knowledge Distillation of Internal
Representation [2.0875529088206553]
本稿では, 知識蒸留をより効果的に活用するために, 内部表現を用いたAdversarial Robust Distillation (ARDIR)を提案する。
ARDIRは、教師モデルの内部表現を敵の訓練のラベルとして使用する。
実験では,ARDIRが従来の手法より優れていたことを示す。
論文 参考訳(メタデータ) (2022-11-01T03:11:59Z) - Efficient Knowledge Distillation from Model Checkpoints [36.329429655242535]
同じ訓練軌道から複数の中間モデルの弱いスナップショットアンサンブルは、独立に訓練された完全収束モデルの強いアンサンブルより優れていることを示す。
本稿では,タスク関連相互情報の最大化に基づく最適中間教師選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-12T17:55:30Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Show, Attend and Distill:Knowledge Distillation via Attention-based
Feature Matching [14.666392130118307]
ほとんどの研究は、教師と学生の中間的な特徴を手動で結び付け、事前に定義されたリンクを通じて知識を伝達する。
リンクを手動で選択することなく,教師のすべての特徴量を利用した効果的かつ効率的な特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2021-02-05T03:07:57Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。