論文の概要: ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge
- arxiv url: http://arxiv.org/abs/2506.14407v1
- Date: Tue, 17 Jun 2025 11:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.438731
- Title: ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge
- Title(参考訳): ImpliRet: 暗黙のFact Retrieval Challengeのベンチマーク
- Authors: Zeinab Sadat Taghavi, Ali Modarressi, Yunpu Ma, Hinrich Schütze,
- Abstract要約: ImpliRetは、推論の課題をドキュメントサイド処理にシフトするベンチマークである。
我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
- 参考スコア(独自算出の注目度): 49.65993318863458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval systems are central to many NLP pipelines, but often rely on surface-level cues such as keyword overlap and lexical semantic similarity. To evaluate retrieval beyond these shallow signals, recent benchmarks introduce reasoning-heavy queries; however, they primarily shift the burden to query-side processing techniques -- like prompting or multi-hop retrieval -- that can help resolve complexity. In contrast, we present ImpliRet, a benchmark that shifts the reasoning challenge to document-side processing: The queries are simple, but relevance depends on facts stated implicitly in documents through temporal (e.g., resolving "two days ago"), arithmetic, and world knowledge relationships. We evaluate a range of sparse and dense retrievers, all of which struggle in this setting: the best nDCG@10 is only 15.07%. We also test whether long-context models can overcome this limitation. But even with a short context of only ten documents, including the positive document, GPT-4.1 scores only 35.06%, showing that document-side reasoning remains a challenge. Our codes are available at github.com/ZeinabTaghavi/IMPLIRET.Contribution.
- Abstract(参考訳): 検索システムは多くのNLPパイプラインの中心であるが、しばしばキーワード重複や語彙的セマンティックな類似性のような表面レベルの手がかりに依存している。
これらの浅い信号を超える検索を評価するため、最近のベンチマークでは推論量の多いクエリが導入されたが、主に複雑性を解決するのに役立つクエリ側処理技術(プロンプトやマルチホップ検索など)に切り替えている。
クエリは単純だが、関連性は、時間的(例えば、"2日前に解決")、算術、世界知識の関係を通じて、文書に暗黙的に記述された事実に依存します。
我々はスパースと密集したレトリバーの幅を評価し、これらは全てこの環境で苦戦している:最高のnDCG@10はわずか15.07%である。
また、長文モデルがこの制限を克服できるかどうかも検証する。
しかし、肯定的な文書を含む10文書の短い文脈であっても、GPT-4.1のスコアは35.06%に過ぎず、文書側の推論は依然として困難である。
私たちのコードはgithub.com/ZeinabTaghavi/IMPLIRET.Contributionで利用可能です。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。