論文の概要: Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2604.04734v1
- Date: Mon, 06 Apr 2026 15:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.237347
- Title: Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval
- Title(参考訳): 難易度を超えて : 味検索のための知識蒸留におけるスコア分布の重要性
- Authors: Youngjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim,
- Abstract要約: スコアスペクトル全体を均一にカバーするStratified Smpling戦略を提案する。
実験により、教師のスコアの分散とエントロピーを保存するStratified Samplingが、堅牢なベースラインとして機能することが確認された。
- 参考スコア(独自算出の注目度): 26.186599286240362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.
- Abstract(参考訳): 知識蒸留(KD)を通したクロスエンコーダ教師からの知識の伝達は,検索モデルの訓練の標準パラダイムとなっている。
既存の研究では、識別を改善するためにハードネガティブをマイニングすることに重点を置いているが、トレーニングデータの体系的構成と結果の教師の得点分布は比較的注目されていない。
本研究では,強みのみに焦点を合わせることで,教師の包括的嗜好構造を学習できなくなり,一般化を阻害する可能性があることを強調する。
教師のスコア分布を効果的にエミュレートするために,全スコアスペクトルを均一にカバーするStratified Smpling戦略を提案する。
ドメイン内およびドメイン外ベンチマークの実験では、教師のスコアの分散とエントロピーを保存するStratified Samplingが、堅牢なベースラインとして機能し、様々な設定においてトップKとランダムサンプリングを著しく上回る。
これらの結果から, 蒸留の本質は, 教師が認識する多様な相対得点の保存にあることが示唆された。
関連論文リスト
- REDistill: Robust Estimator Distillation for Balancing Robustness and Efficiency [0.0]
本稿では、ロバスト統計に基づく原則化されたフレームワークであるREDistillを紹介する。
レディスティルは標準のKD目標をKL分散の一般化であるパワー分散損失に置き換える。
CIFAR-100 と ImageNet-1k の実験では、REDistill は多様な教師/学生アーキテクチャにおける生徒の精度を一貫して向上することを示した。
論文 参考訳(メタデータ) (2026-02-04T15:50:53Z) - Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning [48.041170200238206]
DASD-4B-Thinkingは軽量で高機能で完全なオープンソース推論モデルである。
これは、数学、科学的推論、コード生成の挑戦的なベンチマークにおいて、同等規模のオープンソースのモデル間でSOTA性能を達成する。
論文 参考訳(メタデータ) (2026-01-14T02:43:17Z) - SGD-Based Knowledge Distillation with Bayesian Teachers: Theory and Guidelines [82.00660447875266]
知識蒸留(英: Knowledge Distillation, KD)は、大きな教師ネットワークから、しばしばソフト確率出力を利用して、より小さな学生モデルに知識を伝達する中心的なパラダイムである。
グラディエント・Descent (SGD) を訓練した学生の収束行動の厳密に分析する。
分析の結果,BCPからの学習は分散の低減と収束境界の近傍項の除去に寄与することがわかった。
これらの知見に触発されて、我々は、通常、KDの教師として、BCPの見積もりを改善するベイズ深層学習モデルの使用を提唱する。
論文 参考訳(メタデータ) (2026-01-04T11:09:49Z) - Enriching Knowledge Distillation with Intra-Class Contrastive Learning [40.40889547725741]
ソフトラベルに含まれるクラス内情報を豊かにするために,教員養成中にクラス内コントラストロスを取り入れることを提案する。
クラス内コントラスト損失はクラス内多様性を豊かにすることができることが証明されている。
論文 参考訳(メタデータ) (2025-09-26T08:35:34Z) - Group Relative Knowledge Distillation: Learning from Teacher's Relational Inductive Bias [5.434571018755813]
グループ相対的知識蒸留(GRKD)は、クラス間の相対的なランク付けを学習することで教師の知識を蒸留する新しいフレームワークである。
分類ベンチマークの実験では、GRKDは既存の手法よりも優れた一般化を実現している。
論文 参考訳(メタデータ) (2025-04-29T07:23:22Z) - Partial Knowledge Distillation for Alleviating the Inherent Inter-Class Discrepancy in Federated Learning [2.395881636777087]
クラスバランス学習においても、ある種の弱いクラスが一貫して存在することを観察する。
クラス間精度の差は、FashionMNISTとCIFAR-10データセットのフェデレーション学習で36.9%以上に達する。
弱いクラスに対するモデルの分類精度を向上させるために, 部分的知識蒸留法(PKD)を提案する。
論文 参考訳(メタデータ) (2024-11-23T01:16:46Z) - Unilaterally Aggregated Contrastive Learning with Hierarchical
Augmentation for Anomaly Detection [64.50126371767476]
階層的拡張(UniCon-HA)を用いた一方的集約型コントラスト学習を提案する。
我々は、教師付きおよび教師なしの対照的な損失を通じて、インレーヤの濃度と仮想外れ値の分散を明示的に奨励する。
本手法は,ラベルなし1クラス,ラベルなしマルチクラス,ラベル付きマルチクラスを含む3つのAD設定で評価される。
論文 参考訳(メタデータ) (2023-08-20T04:01:50Z) - Adam: Dense Retrieval Distillation with Adaptive Dark Examples [104.01735794498767]
本稿では,教師が持つ暗黒知識を適応暗黒エクストリームで伝達する知識蒸留フレームワークであるADAMを提案する。
2つの広く利用されているベンチマークで実験を行い、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-12-20T12:03:19Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。