Fugu-MT 論文翻訳(概要): PairDistill: Pairwise Relevance Distillation for Dense Retrieval

論文の概要: PairDistill: Pairwise Relevance Distillation for Dense Retrieval

arxiv url: http://arxiv.org/abs/2410.01383v1
Date: Wed, 2 Oct 2024 09:51:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 21:29:22.015601
Title: PairDistill: Pairwise Relevance Distillation for Dense Retrieval
Title（参考訳）: PairDistill:Dense RetrievalのためのPairwise Relevance Distillation
Authors: Chao-Wei Huang, Yun-Nung Chen,
Abstract要約: 本稿ではペアワイズレバレンス蒸留(Pairwise Relevance Distillation, PairDistill)を導入する。類似した文書間の微妙な区別を提供し、密集した検索モデルの訓練を強化する。実験の結果、PairDistillは既存の手法よりも優れており、複数のベンチマークで最新の結果が得られることがわかった。
参考スコア（独自算出の注目度）: 35.067998820937284
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Effective information retrieval (IR) from vast datasets relies on advanced techniques to extract relevant information in response to queries. Recent advancements in dense retrieval have showcased remarkable efficacy compared to traditional sparse retrieval methods. To further enhance retrieval performance, knowledge distillation techniques, often leveraging robust cross-encoder rerankers, have been extensively explored. However, existing approaches primarily distill knowledge from pointwise rerankers, which assign absolute relevance scores to documents, thus facing challenges related to inconsistent comparisons. This paper introduces Pairwise Relevance Distillation (PairDistill) to leverage pairwise reranking, offering fine-grained distinctions between similarly relevant documents to enrich the training of dense retrieval models. Our experiments demonstrate that PairDistill outperforms existing methods, achieving new state-of-the-art results across multiple benchmarks. This highlights the potential of PairDistill in advancing dense retrieval techniques effectively. Our source code and trained models are released at https://github.com/MiuLab/PairDistill
Abstract（参考訳）: 膨大なデータセットからの効果的な情報検索(IR)は、クエリに応答して関連情報を抽出する高度な技術に依存している。近年の高密度検索の進歩は,従来のスパース検索法と比較して顕著な効果を示した。検索性能をより高めるため、しばしば堅牢なクロスエンコーダリランカーを活用する知識蒸留技術が広く研究されている。しかし、既存のアプローチは主に文書に絶対的関連性スコアを割り当てるポイントワイド・リランカからの知識を抽出し、矛盾する比較に関する課題に直面している。本稿では,Pairwise Relevance Distillation(PairDistill)を導入し,Pairwise Relevelation(PairDistill)を用いて,類似の文書間の微妙な区別を行い,高密度検索モデルのトレーニングを充実させる。実験の結果、PairDistillは既存の手法よりも優れており、複数のベンチマークで最新の結果が得られることがわかった。このことは、高密度検索技術の進歩におけるPairDistillの可能性を強調している。私たちのソースコードとトレーニングされたモデルはhttps://github.com/MiuLab/PairDistillでリリースされます。

関連論文リスト

Local Dense Logit Relations for Enhanced Knowledge Distillation [12.350115738581223]
Local Logit Distillationはクラス間の関係をキャプチャし、Logit情報を再結合する。臨界カテゴリー対の重みを動的に調整できる適応型デカイウェイト(ADW)戦略を導入する。本手法は, きめ細かい知識を伝達し, もっとも重要な関係性を強調することによって, 生徒のパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-07-21T16:25:38Z)
Conventional Contrastive Learning Often Falls Short: Improving Dense Retrieval with Cross-Encoder Listwise Distillation and Synthetic Data [43.81779293196647]
コーパス特異的微調整レンズによる埋め込みモデルの検索効率の改善について検討した。従来のInfoNCEのコントラスト損失を用いた微調整は、最先端モデルの有効性を低下させることが多い。我々は、BERT埋め込みモデル間の最先端の有効性を実現する埋め込みモデルをトレーニングするために、我々のアプローチを利用する。
論文参考訳（メタデータ） (2025-05-25T19:06:19Z)
Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance [24.842839260409075]
この作業では、実際のトレーニングドキュメントとアノテーションを完全に禁じています。オープンソース LLM を用いて,複数のレベルの関連性に応じて,実際のユーザクエリに応答する合成文書を直接生成する。各種IRデータセットの実験により,提案手法はInfoNCEを用いた従来のトレーニングよりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2025-03-29T22:33:22Z)
Unifying Generative and Dense Retrieval for Sequential Recommendation [37.402860622707244]
逐次密度検索と生成検索の強みを組み合わせたハイブリッドモデルであるLIGERを提案する。 LIGERは、シーケンシャルな高密度検索を生成検索に統合し、性能差を緩和し、コールドスタートアイテムレコメンデーションを強化する。このハイブリッドアプローチは、これらのアプローチ間のトレードオフに関する洞察を与え、小規模ベンチマークにおけるレコメンデーションシステムの効率と効率性の向上を示す。
論文参考訳（メタデータ） (2024-11-27T23:36:59Z)
Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文参考訳（メタデータ） (2024-07-22T08:19:34Z)
Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。 LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文参考訳（メタデータ） (2023-07-31T15:44:26Z)
Towards Efficient Deep Hashing Retrieval: Condensing Your Data via Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T13:23:55Z)
Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文参考訳（メタデータ） (2022-12-20T17:00:36Z)
Learning to Generate Synthetic Training Data using Gradient Matching and Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文参考訳（メタデータ） (2022-03-16T11:45:32Z)
PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval [87.68667887072324]
本稿では,クエリ中心とPAssage中心のsmilarity Relations(PAIR)を併用した新しい手法を提案する。本稿では,2種類の類似性関係の形式的定式化を導入することにより,3つの主要な技術的貢献を行う。 MSMARCOとNatural Questionsの両方のデータセットにおいて、従来の最先端モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2021-08-13T02:07:43Z)
Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文参考訳（メタデータ） (2021-07-01T09:26:13Z)
Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-05-21T06:11:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。