Fugu-MT 論文翻訳(概要): ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge

論文の概要: ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge

arxiv url: http://arxiv.org/abs/2506.14407v1
Date: Tue, 17 Jun 2025 11:08:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.438731
Title: ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge
Title（参考訳）: ImpliRet: 暗黙のFact Retrieval Challengeのベンチマーク
Authors: Zeinab Sadat Taghavi, Ali Modarressi, Yunpu Ma, Hinrich Schütze,
Abstract要約: ImpliRetは、推論の課題をドキュメントサイド処理にシフトするベンチマークである。我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
参考スコア（独自算出の注目度）: 49.65993318863458
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval systems are central to many NLP pipelines, but often rely on surface-level cues such as keyword overlap and lexical semantic similarity. To evaluate retrieval beyond these shallow signals, recent benchmarks introduce reasoning-heavy queries; however, they primarily shift the burden to query-side processing techniques -- like prompting or multi-hop retrieval -- that can help resolve complexity. In contrast, we present ImpliRet, a benchmark that shifts the reasoning challenge to document-side processing: The queries are simple, but relevance depends on facts stated implicitly in documents through temporal (e.g., resolving "two days ago"), arithmetic, and world knowledge relationships. We evaluate a range of sparse and dense retrievers, all of which struggle in this setting: the best nDCG@10 is only 15.07%. We also test whether long-context models can overcome this limitation. But even with a short context of only ten documents, including the positive document, GPT-4.1 scores only 35.06%, showing that document-side reasoning remains a challenge. Our codes are available at github.com/ZeinabTaghavi/IMPLIRET.Contribution.
Abstract（参考訳）: 検索システムは多くのNLPパイプラインの中心であるが、しばしばキーワード重複や語彙的セマンティックな類似性のような表面レベルの手がかりに依存している。これらの浅い信号を超える検索を評価するため、最近のベンチマークでは推論量の多いクエリが導入されたが、主に複雑性を解決するのに役立つクエリ側処理技術(プロンプトやマルチホップ検索など)に切り替えている。クエリは単純だが、関連性は、時間的(例えば、"2日前に解決")、算術、世界知識の関係を通じて、文書に暗黙的に記述された事実に依存します。我々はスパースと密集したレトリバーの幅を評価し、これらは全てこの環境で苦戦している:最高のnDCG@10はわずか15.07%である。また、長文モデルがこの制限を克服できるかどうかも検証する。しかし、肯定的な文書を含む10文書の短い文脈であっても、GPT-4.1のスコアは35.06%に過ぎず、文書側の推論は依然として困難である。私たちのコードはgithub.com/ZeinabTaghavi/IMPLIRET.Contributionで利用可能です。

関連論文リスト

Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
Logical Consistency is Vital: Neural-Symbolic Information Retrieval for Negative-Constraint Queries [36.93438185371322]
現在の密集した検索者は、類似性を埋め込むことで、コーパス内の関連文書を検索する。本研究では,ニューラルシンボリックな情報検索手法である textbfNS-IR を提案し,ナイーブな自然言語の埋め込みを最適化する。実験により、NS-IRは、Web検索および低リソース検索タスクにおいて、より優れたゼロショット検索性能が得られることを示した。
論文参考訳（メタデータ） (2025-05-28T12:37:09Z)
Hierarchical Retrieval with Evidence Curation for Open-Domain Financial Question Answering on Standardized Documents [17.506934704019226]
標準化されたドキュメントは、反復的なボイラープレートテキストや同様のテーブル構造など、同様のフォーマットを共有している。この類似性により、従来のRAGメソッドは、ほぼ重複したテキストを誤識別し、精度と完全性を損なう重複検索につながる。本稿では,これらの問題に対処するためのEvidence Curationフレームワークを用いた階層検索手法を提案する。
論文参考訳（メタデータ） (2025-05-26T11:08:23Z)
Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。我々は、Dragon+やContrieverのようなリトリーバーに対する、短いドキュメントの好みなどのバイアスの影響を定量化する。私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
論文参考訳（メタデータ） (2025-03-06T23:23:13Z)
Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER) DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
Emulating Retrieval Augmented Generation via Prompt Engineering for Enhanced Long Context Comprehension in LLMs [23.960451986662996]
本稿では,レトリーバル拡張生成(RAG)を特殊エンジニアリングとチェーンオブ思考推論によりエミュレートする手法を提案する。我々は,BABILong から選択したタスクに対するアプローチを評価し,大量の散逸テキストを用いた標準 bAbI QA 問題をインターリーブする。
論文参考訳（メタデータ） (2025-02-18T02:49:40Z)
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文参考訳（メタデータ） (2024-07-16T17:58:27Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。