論文の概要: Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence
- arxiv url: http://arxiv.org/abs/2503.05037v1
- Date: Thu, 06 Mar 2025 23:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:23:08.644486
- Title: Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence
- Title(参考訳): デンス・リトリーバーの崩壊 : 短・早期・リテラル・ビアーゼ
- Authors: Mohsen Fayyaz, Ali Modarressi, Hinrich Schuetze, Nanyun Peng,
- Abstract要約: 検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
検索者は文書の優先順位の過度な開始、短い文書、繰り返しのエンティティ、リテラルマッチングといった表面的なパターンにしばしば依存していることを示す。
これらのバイアスは、検索優先の文書がLLMを誤解させるおそれのあるRAGのような下流アプリケーションに直接的な結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 56.09494651178128
- License:
- Abstract: Dense retrieval models are commonly used in Information Retrieval (IR) applications, such as Retrieval-Augmented Generation (RAG). Since they often serve as the first step in these systems, their robustness is critical to avoid failures. In this work, by repurposing a relation extraction dataset (e.g. Re-DocRED), we design controlled experiments to quantify the impact of heuristic biases, such as favoring shorter documents, in retrievers like Dragon+ and Contriever. Our findings reveal significant vulnerabilities: retrievers often rely on superficial patterns like over-prioritizing document beginnings, shorter documents, repeated entities, and literal matches. Additionally, they tend to overlook whether the document contains the query's answer, lacking deep semantic understanding. Notably, when multiple biases combine, models exhibit catastrophic performance degradation, selecting the answer-containing document in less than 3% of cases over a biased document without the answer. Furthermore, we show that these biases have direct consequences for downstream applications like RAG, where retrieval-preferred documents can mislead LLMs, resulting in a 34% performance drop than not providing any documents at all.
- Abstract(参考訳): デンス検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
これらのシステムでは、しばしば最初のステップとして機能するため、その堅牢性は失敗を避けるために不可欠である。
本研究では,関係抽出データセット(Re-DocREDなど)を再構成することにより,Dragon+やContrieverなどの検索システムにおいて,短い文書を優先するなどのヒューリスティックバイアスの影響を定量化するための制御実験を設計する。
検索者は文書の開始を過度に優先順位付けし、短いドキュメント、繰り返しのエンティティ、リテラルマッチングといった表面的なパターンに頼っていることが多い。
さらに、ドキュメントにクエリの回答が含まれているかどうかを見落とし、深いセマンティックな理解が欠けている傾向があります。
特に、複数のバイアスが組み合わされた場合、モデルは破滅的なパフォーマンス劣化を示し、解答を含む文書を、解答のない偏見のある文書に対して3%未満のケースで選択する。
さらに,これらのバイアスは,検索優先の文書がLLMを誤解させる可能性があるRAGのような下流アプリケーションに対して直接的な結果をもたらすことを示し,その結果,文書を全く提供しないよりも34%の性能低下をもたらすことを示した。
関連論文リスト
- Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Drowning in Documents: Consequences of Scaling Reranker Inference [35.499018267073964]
クロスエンコーダはしばしば、より安価な初期IRシステムによって取得された文書を再スコアするために使用される。
本研究は,第1段階検索を再現するだけでなく,完全検索のための再ランカ性能を計測する。
私たちの実験では驚くべき傾向が示されています: 最高のリランカーは、徐々に多くのドキュメントをスコアリングするときに、リターンを減少させます。
論文 参考訳(メタデータ) (2024-11-18T17:46:32Z) - ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文 参考訳(メタデータ) (2024-04-26T09:43:40Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文 参考訳(メタデータ) (2022-12-10T11:32:38Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。