論文の概要: DocReRank: Single-Page Hard Negative Query Generation for Training Multi-Modal RAG Rerankers
- arxiv url: http://arxiv.org/abs/2505.22584v1
- Date: Wed, 28 May 2025 16:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.748855
- Title: DocReRank: Single-Page Hard Negative Query Generation for Training Multi-Modal RAG Rerankers
- Title(参考訳): DocReRank:マルチモーダルRAGリランカのトレーニングのための単一ページハード負クエリ生成
- Authors: Navve Wasserman, Oliver Heinimann, Yuval Golbari, Tal Zimbalist, Eli Schwartz, Michal Irani,
- Abstract要約: マルチモーダルレトリーバル増強世代(RAG)におけるリランカーの役割
本稿では, 単一ページのハードネガティブなクエリ生成方式を提案する。
LLM-VLMパイプラインを自動で使用し、ページとその肯定的なクエリを与えられた場合、クエリはフォームとコンテキストで可能な限り類似しているように表現し、ページから応答できないハードネガティブを生成する。
- 参考スコア(独自算出の注目度): 13.342953612467582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rerankers play a critical role in multimodal Retrieval-Augmented Generation (RAG) by refining ranking of an initial set of retrieved documents. Rerankers are typically trained using hard negative mining, whose goal is to select pages for each query which rank high, but are actually irrelevant. However, this selection process is typically passive and restricted to what the retriever can find in the available corpus, leading to several inherent limitations. These include: limited diversity, negative examples which are often not hard enough, low controllability, and frequent false negatives which harm training. Our paper proposes an alternative approach: Single-Page Hard Negative Query Generation, which goes the other way around. Instead of retrieving negative pages per query, we generate hard negative queries per page. Using an automated LLM-VLM pipeline, and given a page and its positive query, we create hard negatives by rephrasing the query to be as similar as possible in form and context, yet not answerable from the page. This paradigm enables fine-grained control over the generated queries, resulting in diverse, hard, and targeted negatives. It also supports efficient false negative verification. Our experiments show that rerankers trained with data generated using our approach outperform existing models and significantly improve retrieval performance.
- Abstract(参考訳): リランカは、検索した文書の初期セットのランキングを精査することで、マルチモーダル検索拡張生成(RAG)において重要な役割を果たす。
リランカは通常、ハードネガティブマイニングを使用してトレーニングされる。その目標は、高いランクのクエリ毎にページを選択することだが、実際には無関係である。
しかしながら、この選択プロセスは一般的に受動的であり、レトリバーが利用可能なコーパスで見つけられるものに制限されるため、いくつかの固有の制限が生じる。
これには、限られた多様性、あまり難しくないネガティブな例、コントロール容易性の低いこと、トレーニングを害する頻繁な偽陰性などが含まれる。
本稿では、別のアプローチとして、Single-Page Hard Negative Query Generationを提案する。
クエリ毎に負のページを取得する代わりに、ページ毎に厳しい負のクエリを生成します。
LLM-VLMパイプラインを自動で使用し、ページとその肯定的なクエリを与えられた場合、クエリはフォームとコンテキストで可能な限り類似しているように表現し、ページから応答できないハードネガティブを生成する。
このパラダイムは、生成されたクエリのきめ細かい制御を可能にする。
また、効率的な偽陰性検証もサポートする。
実験の結果,既存のモデルよりも優れた手法を用いて学習したデータを用いた再ランカが,検索性能を大幅に向上することがわかった。
関連論文リスト
- Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
検索者は文書の優先順位の過度な開始、短い文書、繰り返しのエンティティ、リテラルマッチングといった表面的なパターンにしばしば依存していることを示す。
これらのバイアスは、検索優先の文書がLLMを誤解させるおそれのあるRAGのような下流アプリケーションに直接的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2025-03-06T23:23:13Z) - Few-shot Prompting for Pairwise Ranking: An Effective Non-Parametric Retrieval Model [18.111868378615206]
本稿では,複雑な訓練パイプラインを必要とせず,教師付きモデルに近い性能を達成できる一対数ショットローダを提案する。
また,複雑なトレーニングパイプラインを必要とせず,教師付きモデルに近い性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T11:19:09Z) - MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models [22.50450558103786]
現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声楕円とあいまいな参照を含むことが多い。
本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。
2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
論文 参考訳(メタデータ) (2024-08-30T07:57:30Z) - ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文 参考訳(メタデータ) (2024-04-26T09:43:40Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。