論文の概要: Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence
- arxiv url: http://arxiv.org/abs/2503.05037v2
- Date: Mon, 02 Jun 2025 22:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.037351
- Title: Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence
- Title(参考訳): デンス・リトリーバーの崩壊 : 短・早期・リテラル・ビアーゼ
- Authors: Mohsen Fayyaz, Ali Modarressi, Hinrich Schuetze, Nanyun Peng,
- Abstract要約: 検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
我々は、Dragon+やContrieverのようなリトリーバーに対する、短いドキュメントの好みなどのバイアスの影響を定量化する。
私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
- 参考スコア(独自算出の注目度): 56.09494651178128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrieval models are commonly used in Information Retrieval (IR) applications, such as Retrieval-Augmented Generation (RAG). Since they often serve as the first step in these systems, their robustness is critical to avoid downstream failures. In this work, we repurpose a relation extraction dataset (e.g., Re-DocRED) to design controlled experiments that quantify the impact of heuristic biases, such as a preference for shorter documents, on retrievers like Dragon+ and Contriever. We uncover major vulnerabilities, showing retrievers favor shorter documents, early positions, repeated entities, and literal matches, all while ignoring the answer's presence! Notably, when multiple biases combine, models exhibit catastrophic performance degradation, selecting the answer-containing document in less than 10% of cases over a synthetic biased document without the answer. Furthermore, we show that these biases have direct consequences for downstream applications like RAG, where retrieval-preferred documents can mislead LLMs, resulting in a 34% performance drop than providing no documents at all. https://huggingface.co/datasets/mohsenfayyaz/ColDeR
- Abstract(参考訳): デンス検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
これらのシステムでは、しばしば最初のステップとして機能するため、その堅牢性は下流の障害を避けるために不可欠である。
本研究では,関係抽出データセット(Re-DocREDなど)を用いて,Dragon+やContrieverのような検索者に対する短い文書の好みなどのヒューリスティックバイアスの影響を定量化する制御実験を行う。
私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
特に、複数のバイアスが組み合わされた場合、モデルは破滅的なパフォーマンス劣化を示し、回答を含まない合成バイアス文書に対して10%未満のケースで回答を含む文書を選択する。
さらに,これらのバイアスは,検索優先の文書がLLMを誤解させる可能性があるRAGのような下流アプリケーションに対して直接的な結果をもたらすことを示し,その結果,文書を全く提供しないよりも34%の性能低下をもたらすことを示した。
https://huggingface.co/datasets/mohsenfayyaz/ColDeR
関連論文リスト
- Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Drowning in Documents: Consequences of Scaling Reranker Inference [35.499018267073964]
クロスエンコーダはしばしば、より安価な初期IRシステムによって取得された文書を再スコアするために使用される。
本研究は,第1段階検索を再現するだけでなく,完全検索のための再ランカ性能を計測する。
私たちの実験では驚くべき傾向が示されています: 最高のリランカーは、徐々に多くのドキュメントをスコアリングするときに、リターンを減少させます。
論文 参考訳(メタデータ) (2024-11-18T17:46:32Z) - ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文 参考訳(メタデータ) (2024-04-26T09:43:40Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文 参考訳(メタデータ) (2022-12-10T11:32:38Z) - Revisiting DocRED -- Addressing the False Negative Problem in Relation
Extraction [39.78594332093083]
DocREDデータセットに4,053のドキュメントを再注釈し、失敗した関係を元のDocREDに追加しました。
両データセット上で最先端のニューラルモデルによる広範な実験を行い、実験結果から、Re-DocREDでトレーニングおよび評価されたモデルが、約13F1ポイントのパフォーマンス改善を実現していることが示された。
論文 参考訳(メタデータ) (2022-05-25T11:54:48Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。