論文の概要: When Should Dense Retrievers Be Updated in Evolving Corpora? Detecting Out-of-Distribution Corpora Using GradNormIR
- arxiv url: http://arxiv.org/abs/2506.01877v1
- Date: Mon, 02 Jun 2025 17:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.619925
- Title: When Should Dense Retrievers Be Updated in Evolving Corpora? Detecting Out-of-Distribution Corpora Using GradNormIR
- Title(参考訳): レトリバーの進化コーパス更新はいつ行うべきか? GradNormIRによるアウト・オブ・ディストリビューションコーパスの検出
- Authors: Dayoon Ko, Jinyoung Kim, Sohyeon Kim, Jinhyuk Kim, Jaehoon Lee, Seonghak Song, Minyoung Lee, Gunhee Kim,
- Abstract要約: 本稿では,コーパスがインデックス化前の高密度検索器と比較して分布外(OOD)であるかどうかを予測するための新しいタスクを提案する。
我々は、勾配ノルムを利用してOODコーパスを効果的に検出する、教師なしのアプローチであるGradNormIRを紹介した。
BEIRベンチマークの実験では、GradNormIRはドキュメントコレクションの進化において、高密度検索のタイムリーな更新を可能にする。
- 参考スコア(独自算出の注目度): 32.5131152148767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense retrievers encode texts into embeddings to efficiently retrieve relevant documents from large databases in response to user queries. However, real-world corpora continually evolve, leading to a shift from the original training distribution of the retriever. Without timely updates or retraining, indexing newly emerging documents can degrade retrieval performance for future queries. Thus, identifying when a dense retriever requires an update is critical for maintaining robust retrieval systems. In this paper, we propose a novel task of predicting whether a corpus is out-of-distribution (OOD) relative to a dense retriever before indexing. Addressing this task allows us to proactively manage retriever updates, preventing potential retrieval failures. We introduce GradNormIR, an unsupervised approach that leverages gradient norms to detect OOD corpora effectively. Experiments on the BEIR benchmark demonstrate that GradNormIR enables timely updates of dense retrievers in evolving document collections, significantly enhancing retrieval robustness and efficiency.
- Abstract(参考訳): デンスレトリバーはテキストを埋め込みにエンコードし、ユーザクエリに応答して大きなデータベースから関連ドキュメントを効率的に取得する。
しかし、現実世界のコーパスは継続的に進化し、レトリバーの元々のトレーニング分布から移行した。
タイムリーな更新や再トレーニングがなければ、新しいドキュメントのインデックス付けは、将来のクエリの検索性能を低下させる可能性がある。
したがって、高密度検索がいつ更新を必要とするかを特定することは、堅牢な検索システムを維持する上で重要である。
本稿では,コーパスがインデックス化前の高密度検索器と比較して分布外(OOD)であるかどうかを予測するための新しいタスクを提案する。
このタスクに対処することで、リトリバー更新を積極的に管理し、潜在的な検索失敗を防ぐことができます。
我々は、勾配ノルムを利用してOODコーパスを効果的に検出する、教師なしのアプローチであるGradNormIRを紹介した。
BEIRベンチマークの実験により、GradNormIRはドキュメントコレクションの進化において、高密度検索のタイムリーな更新を可能にし、検索の堅牢性と効率を大幅に向上させることを示した。
関連論文リスト
- ReasonIR: Training Retrievers for Reasoning Tasks [139.54343970560103]
ReasonIR-8Bは一般的な推論タスクのために特別に訓練された最初のレトリバーである。
新たに29.9 nDCG@10をリランカなしで、36.9 nDCG@10をリランカで達成している。
論文 参考訳(メタデータ) (2025-04-29T09:49:28Z) - Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
検索者は文書の優先順位の過度な開始、短い文書、繰り返しのエンティティ、リテラルマッチングといった表面的なパターンにしばしば依存していることを示す。
これらのバイアスは、検索優先の文書がLLMを誤解させるおそれのあるRAGのような下流アプリケーションに直接的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2025-03-06T23:23:13Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - End-to-End Training of Multi-Document Reader and Retriever for
Open-Domain Question Answering [36.80395759543162]
本稿では,検索拡張されたオープンドメイン質問応答システムに対するエンドツーエンドの差別化学習手法を提案する。
我々は,検索決定を関連文書の集合よりも遅延変数としてモデル化する。
提案手法は,一致点の精度を2~3%向上させる。
論文 参考訳(メタデータ) (2021-06-09T19:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。