論文の概要: ComLQ: Benchmarking Complex Logical Queries in Information Retrieval
- arxiv url: http://arxiv.org/abs/2511.12004v2
- Date: Sun, 23 Nov 2025 06:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 16:30:37.436507
- Title: ComLQ: Benchmarking Complex Logical Queries in Information Retrieval
- Title(参考訳): ComLQ:情報検索における複雑な論理的クエリのベンチマーク
- Authors: Ganlin Xu, Zhitao Yin, Linghao Zhang, Jiaqing Liang, Weijia Lu, Xiaodong Zhang, Zhifei Yang, Sihang Jiang, Deqing Yang,
- Abstract要約: 情報検索システムは,様々なアプリケーションにまたがる情報過負荷をナビゲートする上で重要な役割を担っている。
これらのベンチマークは、現実世界のシナリオにおける複雑なクエリ上でのIRモデルの性能を十分に評価するためには使用できない。
大規模言語モデル(LLM)を利用してtextbfComplex textbfLogical textbfQueries 用の新しいIRデータセット textbfComLQ を構築する手法を提案する。
- 参考スコア(独自算出の注目度): 26.606215927237248
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Information retrieval (IR) systems play a critical role in navigating information overload across various applications. Existing IR benchmarks primarily focus on simple queries that are semantically analogous to single- and multi-hop relations, overlooking \emph{complex logical queries} involving first-order logic operations such as conjunction ($\land$), disjunction ($\lor$), and negation ($\lnot$). Thus, these benchmarks can not be used to sufficiently evaluate the performance of IR models on complex queries in real-world scenarios. To address this problem, we propose a novel method leveraging large language models (LLMs) to construct a new IR dataset \textbf{ComLQ} for \textbf{Com}plex \textbf{L}ogical \textbf{Q}ueries, which comprises 2,909 queries and 11,251 candidate passages. A key challenge in constructing the dataset lies in capturing the underlying logical structures within unstructured text. Therefore, by designing the subgraph-guided prompt with the subgraph indicator, an LLM (such as GPT-4o) is guided to generate queries with specific logical structures based on selected passages. All query-passage pairs in ComLQ are ensured \emph{structure conformity} and \emph{evidence distribution} through expert annotation. To better evaluate whether retrievers can handle queries with negation, we further propose a new evaluation metric, \textbf{Log-Scaled Negation Consistency} (\textbf{LSNC@$K$}). As a supplement to standard relevance-based metrics (such as nDCG and mAP), LSNC@$K$ measures whether top-$K$ retrieved passages violate negation conditions in queries. Our experimental results under zero-shot settings demonstrate existing retrieval models' limited performance on complex logical queries, especially on queries with negation, exposing their inferior capabilities of modeling exclusion.
- Abstract(参考訳): 情報検索(IR)システムは、様々なアプリケーション間で情報の過負荷をナビゲートする上で重要な役割を担っている。
既存のIRベンチマークでは、接続($\land$)、解離($\lor$)、否定($\lnot$)といった一階述語論理演算を含む 'emph{complex logic query} を見渡すことで、シングルホップとマルチホップの関係にセマンティックに類似した単純なクエリに重点を置いている。
したがって、これらのベンチマークは、現実世界のシナリオにおける複雑なクエリ上でのIRモデルの性能を十分に評価するためには使用できない。
この問題に対処するために,2,909のクエリと11,251の候補パスからなる,新しいIRデータセットである \textbf{ComLQ} for \textbf{Com}plex \textbf{L}ogical \textbf{Q}ueries を構築するために,LLMを用いた新しい手法を提案する。
データセットを構築する上で重要な課題は、非構造化テキスト内の基盤となる論理構造をキャプチャすることにある。
従って、サブグラフインジケータを用いてサブグラフ誘導プロンプトを設計することにより、選択されたパスに基づいて、特定の論理構造を持つクエリを生成するLLM(GPT-4oなど)をガイドする。
ComLQ の全てのクエリパスペアは、専門家アノテーションによって \emph{structure conformity} と \emph{evidence distribution} が保証される。
ネゲーションでクエリを処理できるかどうかをよりよく評価するために、新しい評価指標である \textbf{Log-Scaled Negation Consistency} (\textbf{LSNC@$K$})を提案する。
nDCGやmAPのような標準の関連性ベースのメトリクスの補足として、LSNC@$K$は、検索された上位$K$がクエリの否定条件に違反しているかどうかを測定する。
ゼロショット条件下での実験結果は、既存の検索モデルが複雑な論理的クエリ、特に否定のあるクエリに対して限られた性能を示し、モデリング排他性が劣ることを示した。
関連論文リスト
- SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables [13.249024309069236]
テーブルテキスト質問応答タスクは、長いテキストとソーステーブルをまたいで推論し、複数のホップをトラバースし、集約のような複雑な操作を実行するモデルを必要とする。
本稿では,大規模テーブルテキストQAベンチマークを自動的に生成し,軽量な人体検証を行うエンドツーエンド構築フレームワークであるSPARTAを提案する。
SPARTAでは、HybridQAで70F1以上、OTT-QAで50F1以上に達する最先端モデルが30F1ポイント以上減少する。
論文 参考訳(メタデータ) (2026-02-26T17:59:51Z) - ROG: Retrieval-Augmented LLM Reasoning for Complex First-Order Queries over Knowledge Graphs [14.25887925588904]
本稿では,クエリを意識した近傍検索と大規模言語モデル(LLM)の連鎖推論を組み合わせた検索拡張フレームワークを提案する。
ROGはマルチ演算クエリを単一演算サブクエリのシーケンスに分解する。
中間回答セットはステップ間でキャッシュされ再利用され、深い推論チェーンの一貫性が向上します。
論文 参考訳(メタデータ) (2026-02-02T17:45:43Z) - OrLog: Resolving Complex Queries with LLMs and Probabilistic Reasoning [51.58235452818926]
そこで我々は,論理的推論から述語レベルの妥当性推定を分離するニューロシンボリック検索フレームワークOrLogを紹介する。
大規模言語モデル (LLM) は1つの復号のない前方通過において原子述語に対する可視性スコアを提供し、確率論的推論エンジンはクエリ満足度の後方確率を導出する。
論文 参考訳(メタデータ) (2026-01-30T15:31:58Z) - A Large Language Model Based Method for Complex Logical Reasoning over Knowledge Graphs [16.929901817693334]
知識グラフ(KG)と一階述語論理(FOL)クエリを関連付けることは、現実世界のKGが本質的に不完全であるために困難である。
本稿では,問合せ対応のKG近傍検索と大規模言語モデル(LLM)に基づくチェーン・オブ・シークレット推論を組み合わせたアンサンブルスタイルのフレームワークであるROGを提案する。
論文 参考訳(メタデータ) (2025-12-22T07:01:05Z) - KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - Logical Consistency is Vital: Neural-Symbolic Information Retrieval for Negative-Constraint Queries [36.93438185371322]
現在の密集した検索者は、類似性を埋め込むことで、コーパス内の関連文書を検索する。
本研究では,ニューラルシンボリックな情報検索手法である textbfNS-IR を提案し,ナイーブな自然言語の埋め込みを最適化する。
実験により、NS-IRは、Web検索および低リソース検索タスクにおいて、より優れたゼロショット検索性能が得られることを示した。
論文 参考訳(メタデータ) (2025-05-28T12:37:09Z) - Neuro-Symbolic Query Compiler [57.78201019000895]
本稿では,このギャップを埋めるために,言語文法規則とコンパイラ設計に触発されたニューラルシンボリックなフレームワークQCompilerを提案する。
理論上は、複雑なクエリを形式化するのに最小でも十分なバックス・ナウアー形式(BNF)の文法を$G[q]$で設計する。
葉のサブクエリの原子性は、より正確な文書検索と応答生成を保証し、複雑なクエリに対処するRAGシステムの能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-17T09:36:03Z) - Effective Instruction Parsing Plugin for Complex Logical Query Answering on Knowledge Graphs [51.33342412699939]
知識グラフクエリ埋め込み(KGQE)は、不完全なKGに対する複雑な推論のために、低次元KG空間に一階論理(FOL)クエリを埋め込むことを目的としている。
近年の研究では、FOLクエリの論理的セマンティクスをよりよく捉えるために、さまざまな外部情報(エンティティタイプや関係コンテキストなど)を統合している。
コードのようなクエリ命令から遅延クエリパターンをキャプチャする効果的なクエリ命令解析(QIPP)を提案する。
論文 参考訳(メタデータ) (2024-10-27T03:18:52Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - HOLMES: Hyper-Relational Knowledge Graphs for Multi-hop Question Answering using LLMs [9.559336828884808]
大規模言語モデル(LLM)は、単純な(シングルホップ)質問に答えるには適しています。
質問の複雑さが増すにつれて、LLMの性能は低下する。
最近の手法では、構造化知識三重項を原文に組み込むことで、この負担を軽減しようとしている。
本稿では,知識グラフ(KG)を用いてコンテキスト認識し,クエリ関連情報を含むように蒸留する手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T05:22:49Z) - Prompt-fused framework for Inductive Logical Query Answering [31.736934787328156]
本稿では,Pro-QEという問合せ対応のプロンプトフューズフレームワークを提案する。
論理的クエリにおける未知のエンティティの問題に,我々のモデルがうまく対処できることが示される。
論文 参考訳(メタデータ) (2024-03-19T11:30:30Z) - Reverse Engineering of Temporal Queries Mediated by LTL Ontologies [8.244587597395936]
データベースクエリのリバースエンジニアリングでは、与えられた回答と非回答の集合からクエリを構築することを目指している。
時間スタンプデータに対して線形時間論理の正のフラグメントで定式化されたクエリに対して,このクエリ・バイ・サンプル問題について検討する。
論文 参考訳(メタデータ) (2023-05-02T08:27:39Z) - Knowledge Base Question Answering by Case-based Reasoning over Subgraphs [81.22050011503933]
本モデルでは,既存のKG補完アルゴリズムよりも複雑な推論パターンを必要とする問合せに対して,より効果的に答えることを示す。
提案モデルは、KBQAベンチマークの最先端モデルよりも優れているか、競合的に動作する。
論文 参考訳(メタデータ) (2022-02-22T01:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。