論文の概要: Enhancing Retrieval Performance: An Ensemble Approach For Hard Negative Mining
- arxiv url: http://arxiv.org/abs/2411.02404v1
- Date: Fri, 18 Oct 2024 05:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 12:31:23.959342
- Title: Enhancing Retrieval Performance: An Ensemble Approach For Hard Negative Mining
- Title(参考訳): 検索パフォーマンスの向上: ハード負のマイニングのためのアンサンブルアプローチ
- Authors: Hansa Meghwani,
- Abstract要約: 本研究は,クロスエンコーダモデルのトレーニングプロセスにおいて,ハードネガティブが果たす重要な役割を説明することに焦点を当てる。
我々は,企業データセット上でのクロスエンコーダ・リランクモデルの効率的なトレーニングのための強硬な負のマイニング手法を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Ranking consistently emerges as a primary focus in information retrieval research. Retrieval and ranking models serve as the foundation for numerous applications, including web search, open domain QA, enterprise domain QA, and text-based recommender systems. Typically, these models undergo training on triplets consisting of binary relevance assignments, comprising one positive and one negative passage. However, their utilization involves a context where a significantly more nuanced understanding of relevance is necessary, especially when re-ranking a large pool of potentially relevant passages. Although collecting positive examples through user feedback like impressions or clicks is straightforward, identifying suitable negative pairs from a vast pool of possibly millions or even billions of documents possess a greater challenge. Generating a substantial number of negative pairs is often necessary to maintain the high quality of the model. Several approaches have been suggested in literature to tackle the issue of selecting suitable negative pairs from an extensive corpus. This study focuses on explaining the crucial role of hard negatives in the training process of cross-encoder models, specifically aiming to explain the performance gains observed with hard negative sampling compared to random sampling. We have developed a robust hard negative mining technique for efficient training of cross-encoder re-rank models on an enterprise dataset which has domain specific context. We provide a novel perspective to enhance retrieval models, ultimately influencing the performance of advanced LLM systems like Retrieval-Augmented Generation (RAG) and Reasoning and Action Agents (ReAct). The proposed approach demonstrates that learning both similarity and dissimilarity simultaneously with cross-encoders improves performance of retrieval systems.
- Abstract(参考訳): ランク付けは情報検索研究の主眼として一貫して現れている。
検索モデルとランキングモデルは、Web検索、オープンドメインのQA、エンタープライズドメインのQA、テキストベースのレコメンデーションシステムなど、多数のアプリケーションの基盤となっている。
典型的には、これらのモデルは二項関係代入からなる三重項の訓練を受けており、1つの正と1つの負の通路から構成されている。
しかしながら、それらの利用には、特に潜在的に関連のある大きな通路のプールを再ランク付けする場合に、関連性に関するはるかに曖昧な理解が必要とされる状況が伴う。
インプレッションやクリックのようなユーザーからのフィードバックでポジティブな例を収集することは簡単だが、数百万、数十億のドキュメントからなる巨大なプールから適切なネガティブなペアを特定することは、大きな課題である。
モデルの品質を維持するためには、かなりの数の負のペアを生成する必要がある。
幅広いコーパスから適切な負対を選択する問題に取り組むために、文献でいくつかのアプローチが提案されている。
本研究は, クロスエンコーダモデルのトレーニングプロセスにおいて, ハード・ネガティブが果たす重要な役割を説明することに焦点を当て, ランダムサンプリングと比較して, ハード・ネガティブサンプリングで観測されたパフォーマンス・ゲインを説明することを目的としている。
我々は、ドメイン固有のコンテキストを持つエンタープライズデータセット上で、クロスエンコーダ・リランクモデルの効率的なトレーニングを行うための頑強な負のマイニング手法を開発した。
我々は、検索モデルを強化する新しい視点を提供し、最終的には、Retrieval-Augmented Generation (RAG)やReasoning and Action Agents (ReAct)のような高度なLLMシステムの性能に影響を与える。
提案手法は,類似性と相似性の両方をクロスエンコーダで同時に学習することにより,検索システムの性能が向上することを示す。
関連論文リスト
- Few-shot Prompting for Pairwise Ranking: An Effective Non-Parametric Retrieval Model [18.111868378615206]
本稿では,複雑な訓練パイプラインを必要とせず,教師付きモデルに近い性能を達成できる一対数ショットローダを提案する。
また,複雑なトレーニングパイプラインを必要とせず,教師付きモデルに近い性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T11:19:09Z) - Instruction Tuning with Retrieval-based Examples Ranking for Aspect-based Sentiment Analysis [7.458853474864602]
アスペクトベースの感情分析(ABSA)は、特定の側面に関連する感情情報を識別し、企業や組織に対してより深い市場洞察を提供する。
近年の研究では、ABSAを生成タスクとして再構成する命令チューニングの固定例が提案されている。
本研究では,ABSAタスクの検索に基づくサンプルランキングを用いた指導学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-28T10:39:10Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation
Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。
WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文 参考訳(メタデータ) (2022-02-28T08:55:12Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z) - Rethinking Self-Supervision Objectives for Generalizable Coherence
Modeling [8.329870357145927]
機械生成テキストのコヒーレンス評価は、検討すべきコヒーレンスモデルの主要な応用の1つである。
タスク全体にわたってうまく一般化するモデルをもたらす訓練データと自己超越目標について検討する。
本研究では, 負サンプルの密度の増加が基本モデルを改善することを実証的に示し, 大域的負のキューを用いることで, 強負のサンプルを訓練しながらモデルをさらに改善・安定化する。
論文 参考訳(メタデータ) (2021-10-14T07:44:14Z) - NPCFace: Negative-Positive Collaborative Training for Large-scale Face
Recognition [78.21084529159577]
我々は、トレーニングを改善するために、ハードサンプルのより良い利用方法を研究する。
強正と強負の相関は見過ごされ、正と負のロジットのマージンの関係も見過ごされる。
我々はNPCFaceと呼ばれる新規な負の正の協調的損失を提案し、これは負のハードケースと正のハードケースの両方のトレーニングを強調している。
論文 参考訳(メタデータ) (2020-07-20T14:52:29Z) - Reinforced Negative Sampling over Knowledge Graph for Recommendation [106.07209348727564]
我々は、高品質なネガティブを探索する強化学習エージェントとして機能する新しい負サンプリングモデル、知識グラフポリシーネットワーク(kgPolicy)を開発した。
kgPolicyは、ターゲットのポジティブなインタラクションからナビゲートし、知識を意識したネガティブなシグナルを適応的に受信し、最終的にはリコメンダをトレーニングする潜在的なネガティブなアイテムを生成する。
論文 参考訳(メタデータ) (2020-03-12T12:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。