論文の概要: QO-Bench: Diagnosing Query-Operator-Preserving Retrieval over Typed Event Tuples
- arxiv url: http://arxiv.org/abs/2606.04646v1
- Date: Wed, 03 Jun 2026 09:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.651612
- Title: QO-Bench: Diagnosing Query-Operator-Preserving Retrieval over Typed Event Tuples
- Title(参考訳): QO-Bench: 型付きイベントタプルによるクエリ-オペレータ-保存検索の診断
- Authors: Mengao Zhang, Xiang Yang, Chang Liu, Tianhui Tan, Ke-wei Huang,
- Abstract要約: 本稿では,QO-Benchという,型付きイベントに対するクエリ操作型質問応答の診断ベンチマークを紹介する。
ベンチマークでは、22,984のニュース記事と18のクエリテンプレートにわたる614の企業イベントをカバーし、785の質問で評価されている。
- 参考スコア(独自算出の注目度): 3.4933579621415576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world questions over business, legal, and scientific corpora are natural-language versions of database-style queries over records latent in text. Existing retrieval-augmented generation (RAG) systems are optimized primarily for semantic relevance, but retrieving plausible passages does not guarantee correct query execution. We introduce QO-Bench, a diagnostic benchmark for query-operator question answering over typed event tuples. The benchmark covers 22,984 news articles and 614 corporate events across 18 query templates, evaluated on 785 questions. Each gold answer is deterministically computed from typed event tuples and scored by recall, with answers matched to the gold tuples by exact match rather than an LLM judge. This design enables operator-level diagnosis such as joins and intersection. We evaluate RAG, ReAct RAG, GraphRAG, and information-extraction-to-SQL under matched conditions, with a long-context oracle ceiling to isolate retrieval failure. A two-axis framework -- index-time preservation versus query-time execution -- predicts where each paradigm fails, and the results bear it out: systems retrieve relevant text but discard the typed values operators need, and the deployable paradigm ranking inverts across operators, with similarity retrieval leading on filter/project and extraction-to-SQL on intersection and counting. Even given the gold evidence, a long-context oracle stays far from saturated, so operator execution -- not retrieval alone -- is a core bottleneck that a stronger answer model does not remove. QO-Bench reframes the goal from passage relevance to query-operator-preserving retrieval.
- Abstract(参考訳): ビジネス、法的、科学的なコーパスに関する現実世界の多くの質問は、テキストに潜むレコードに対するデータベーススタイルのクエリの自然言語版である。
既存の検索拡張生成システム(RAG)は、主に意味的関連性のために最適化されているが、妥当なパスを取得することは、正しいクエリ実行を保証するものではない。
QO-Benchは、型付きイベントタプルに対するクエリ操作型質問応答の診断ベンチマークである。
ベンチマークでは、22,984のニュース記事と18のクエリテンプレートにわたる614の企業イベントをカバーし、785の質問で評価されている。
各金の解答は、タイプされたイベントタプルから決定的に計算され、リコールによってスコアされ、答えはLDMの判定ではなく、正確に一致して金のタプルと一致する。
この設計により、結合や交差といった演算子レベルの診断が可能になる。
RAG, ReAct RAG, GraphRAG, and information-extract-to-SQL を一致条件下で評価し, 長いコンテキストのオラクル天井を用いて検索障害を分離した。
システムは関連するテキストを検索するが、オペレータが必要とする型付けされた値を破棄する。そしてデプロイ可能なパラダイムランキングは、オペレータ間で反転する。
金の証拠を考えれば、長いコンテキストのオラクルは飽和から遠ざかっているため、オペレータの実行 -- 検索だけではありません -- は、強力な回答モデルが取り除かない中核的なボトルネックです。
QO-Benchは、パス関連性からクエリオペレータ保存検索まで、その目標を再構築する。
関連論文リスト
- TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering [80.93487993878836]
現実世界のクエリの一般的なクラスは暗黙的に予測され、単に検索するのではなく、歴史的パターンから観測されていない回答を推測する必要がある。
これらのクエリには、潜在意図を認識することと、大規模テーブル上での信頼性の高い予測推論という2つの課題がある。
単点予測から意思決定,処理効果分析,複雑な推論に至るまで,4つのサブタスクにわたる779のサンプルからなるベンチマークであるTopBenchを紹介する。
論文 参考訳(メタデータ) (2026-04-30T16:22:51Z) - SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables [13.249024309069236]
テーブルテキスト質問応答タスクは、長いテキストとソーステーブルをまたいで推論し、複数のホップをトラバースし、集約のような複雑な操作を実行するモデルを必要とする。
本稿では,大規模テーブルテキストQAベンチマークを自動的に生成し,軽量な人体検証を行うエンドツーエンド構築フレームワークであるSPARTAを提案する。
SPARTAでは、HybridQAで70F1以上、OTT-QAで50F1以上に達する最先端モデルが30F1ポイント以上減少する。
論文 参考訳(メタデータ) (2026-02-26T17:59:51Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Decoding a Neural Retriever's Latent Space for Query Suggestion [28.410064376447718]
本稿では,有意なクエリをその潜在表現から復号することが可能であること,また,潜在空間の正しい方向に移動すると,関連する段落を検索するクエリを復号することができることを示す。
クエリデコーダを用いて、MSMarcoのクエリ再構成の大規模な合成データセットを生成する。
このデータに基づいて、クエリー提案の適用のために擬似関連フィードバック(PRF)T5モデルを訓練する。
論文 参考訳(メタデータ) (2022-10-21T16:19:31Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。