論文の概要: PairDistill: Pairwise Relevance Distillation for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2410.01383v1
- Date: Wed, 2 Oct 2024 09:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 21:29:22.015601
- Title: PairDistill: Pairwise Relevance Distillation for Dense Retrieval
- Title(参考訳): PairDistill:Dense RetrievalのためのPairwise Relevance Distillation
- Authors: Chao-Wei Huang, Yun-Nung Chen,
- Abstract要約: 本稿ではペアワイズレバレンス蒸留(Pairwise Relevance Distillation, PairDistill)を導入する。
類似した文書間の微妙な区別を提供し、密集した検索モデルの訓練を強化する。
実験の結果、PairDistillは既存の手法よりも優れており、複数のベンチマークで最新の結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 35.067998820937284
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effective information retrieval (IR) from vast datasets relies on advanced techniques to extract relevant information in response to queries. Recent advancements in dense retrieval have showcased remarkable efficacy compared to traditional sparse retrieval methods. To further enhance retrieval performance, knowledge distillation techniques, often leveraging robust cross-encoder rerankers, have been extensively explored. However, existing approaches primarily distill knowledge from pointwise rerankers, which assign absolute relevance scores to documents, thus facing challenges related to inconsistent comparisons. This paper introduces Pairwise Relevance Distillation (PairDistill) to leverage pairwise reranking, offering fine-grained distinctions between similarly relevant documents to enrich the training of dense retrieval models. Our experiments demonstrate that PairDistill outperforms existing methods, achieving new state-of-the-art results across multiple benchmarks. This highlights the potential of PairDistill in advancing dense retrieval techniques effectively. Our source code and trained models are released at https://github.com/MiuLab/PairDistill
- Abstract(参考訳): 膨大なデータセットからの効果的な情報検索(IR)は、クエリに応答して関連情報を抽出する高度な技術に依存している。
近年の高密度検索の進歩は,従来のスパース検索法と比較して顕著な効果を示した。
検索性能をより高めるため、しばしば堅牢なクロスエンコーダリランカーを活用する知識蒸留技術が広く研究されている。
しかし、既存のアプローチは主に文書に絶対的関連性スコアを割り当てるポイントワイド・リランカからの知識を抽出し、矛盾する比較に関する課題に直面している。
本稿では,Pairwise Relevance Distillation(PairDistill)を導入し,Pairwise Relevelation(PairDistill)を用いて,類似の文書間の微妙な区別を行い,高密度検索モデルのトレーニングを充実させる。
実験の結果、PairDistillは既存の手法よりも優れており、複数のベンチマークで最新の結果が得られることがわかった。
このことは、高密度検索技術の進歩におけるPairDistillの可能性を強調している。
私たちのソースコードとトレーニングされたモデルはhttps://github.com/MiuLab/PairDistillでリリースされます。
関連論文リスト
- Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense
Passage Retrieval [87.68667887072324]
本稿では,クエリ中心とPAssage中心のsmilarity Relations(PAIR)を併用した新しい手法を提案する。
本稿では,2種類の類似性関係の形式的定式化を導入することにより,3つの主要な技術的貢献を行う。
MSMARCOとNatural Questionsの両方のデータセットにおいて、従来の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-08-13T02:07:43Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。