論文の概要: SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables
- arxiv url: http://arxiv.org/abs/2602.23286v1
- Date: Thu, 26 Feb 2026 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.826209
- Title: SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables
- Title(参考訳): SPARTA: テキストとテーブル上のツリー構造化マルチホップQAのスケーラブルで原則付きベンチマーク
- Authors: Sungho Park, Jueun Kim, Wook-Shin Han,
- Abstract要約: テーブルテキスト質問応答タスクは、長いテキストとソーステーブルをまたいで推論し、複数のホップをトラバースし、集約のような複雑な操作を実行するモデルを必要とする。
本稿では,大規模テーブルテキストQAベンチマークを自動的に生成し,軽量な人体検証を行うエンドツーエンド構築フレームワークであるSPARTAを提案する。
SPARTAでは、HybridQAで70F1以上、OTT-QAで50F1以上に達する最先端モデルが30F1ポイント以上減少する。
- 参考スコア(独自算出の注目度): 13.249024309069236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world Table-Text question answering (QA) tasks require models that can reason across long text and source tables, traversing multiple hops and executing complex operations such as aggregation. Yet existing benchmarks are small, manually curated - and therefore error-prone - and contain shallow questions that seldom demand more than two hops or invoke aggregations, grouping, or other advanced analytical operations expressible in natural-language queries. We present SPARTA, an end-to-end construction framework that automatically generates large-scale Table-Text QA benchmarks with lightweight human validation, requiring only one quarter of the annotation time of HybridQA. The framework first constructs a reference fact database by enriching each source table with grounding tables whose tuples are atomic facts automatically extracted from the accompanying unstructured passages, then synthesizes nested queries whose number of nested predicates matches the desired hop count. To ensure that every SQL statement is executable and that its verbalization yields a fluent, human-sounding question, we propose two novel techniques: provenance-based refinement, which rewrites any syntactically valid query that returns a non-empty result, and realistic-structure enforcement, which confines generation to post-order traversals of the query graph. The resulting pipeline produces thousands of high-fidelity question-answer pairs covering aggregations, grouping, and deep multi-hop reasoning across text and tables. On SPARTA, state-of-the-art models that reach over 70 F1 on HybridQA or over 50 F1 on OTT-QA drop by more than 30 F1 points, exposing fundamental weaknesses in current cross-modal reasoning. Our benchmark, construction code, and baseline models are available at https://github.com/pshlego/SPARTA/tree/main.
- Abstract(参考訳): 実世界の表-テキスト質問応答(QA)タスクは、長いテキストとソーステーブルをまたいで推論し、複数のホップをトラバースし、アグリゲーションのような複雑な操作を実行するモデルを必要とする。
しかし、既存のベンチマークは小さく、手動でキュレートされているため、エラーが発生しやすいため、2つ以上のホップを要求したり、アグリゲーション、グループ化、あるいは自然言語クエリで表現可能な他の高度な分析操作を呼び出すことがほとんどない、浅い質問を含んでいる。
SPARTAは、大規模テーブルテキストQAベンチマークを自動的に生成し、軽量な人間による検証を行い、HybridQAのアノテーションの4分の1しか必要としない。
このフレームワークは、まず、関連する非構造化パスから自動的に抽出されるアトミックな事実であるタプルを接地テーブルで各ソーステーブルを濃縮し、次に、ネストされた述語数が所望のホップ数に一致するネストされたクエリを合成することにより、参照ファクトデータベースを構築する。
全てのSQL文が実行可能であり、その動詞化が流動的で人間に聞こえる質問をもたらすことを保証するために、我々は、空でない結果を返す構文的に有効なクエリを書き換える証明ベースの改善と、クエリグラフのポストオーダートラバースに生成を限定する現実的な構造強制という、2つの新しいテクニックを提案する。
結果として得られるパイプラインは、集合、グループ化、テキストとテーブルをまたいだ深いマルチホップ推論をカバーする、何千もの高忠実な質問応答ペアを生成する。
SPARTAでは、HybridQAで70F1以上、OTT-QAで50F1以上に達する最先端のモデルが30F1ポイント以上減少し、現在のクロスモーダル推論において根本的な弱点が露呈している。
私たちのベンチマーク、構築コード、ベースラインモデルはhttps://github.com/pshlego/SPARTA/tree/main.orgで公開されています。
関連論文リスト
- ST-Raptor: LLM-Powered Semi-Structured Table Question Answering [17.807768747239205]
現実世界のアプリケーションで広く使われている半構造化テーブルは、フレキシブルで複雑なレイアウトを含むことが多い。
これらのテーブルは、テーブルレイアウトを解釈し、関連する自然言語の質問に答えるために、人間アナリストに依存している。
大規模言語モデルを用いた半構造化テーブル質問応答のための木ベースのフレームワークST-Raptorを提案する。
論文 参考訳(メタデータ) (2025-08-25T16:48:51Z) - Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。
2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文 参考訳(メタデータ) (2025-07-22T19:23:03Z) - The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - Effective Instruction Parsing Plugin for Complex Logical Query Answering on Knowledge Graphs [51.33342412699939]
知識グラフクエリ埋め込み(KGQE)は、不完全なKGに対する複雑な推論のために、低次元KG空間に一階論理(FOL)クエリを埋め込むことを目的としている。
近年の研究では、FOLクエリの論理的セマンティクスをよりよく捉えるために、さまざまな外部情報(エンティティタイプや関係コンテキストなど)を統合している。
コードのようなクエリ命令から遅延クエリパターンをキャプチャする効果的なクエリ命令解析(QIPP)を提案する。
論文 参考訳(メタデータ) (2024-10-27T03:18:52Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。