論文の概要: ASTRA-QA: A Benchmark for Abstract Question Answering over Documents
- arxiv url: http://arxiv.org/abs/2605.10168v1
- Date: Mon, 11 May 2026 08:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.636007
- Title: ASTRA-QA: A Benchmark for Abstract Question Answering over Documents
- Title(参考訳): ASTRA-QA: ドキュメントに関する要約質問回答ベンチマーク
- Authors: Shu Wang, Shansong Zhou, Xinyang Wang, Shiwei Wang, Hulong Wu, Yixiang Fang,
- Abstract要約: ASTRA-QAは文書に対するAbSTRAct Question Answeringのベンチマークである。
ASTRA-QA は学術論文やニュース文書に 869 件の QA インスタンスが含まれている。
これらのアノテーションに基づいてASTRA-QAは、回答が必要なキーポイントとサポート対象のコンテンツをカバーするかどうかを評価する。
- 参考スコア(独自算出の注目度): 13.206772051639364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-based question answering (QA) increasingly includes abstract questions that require synthesizing scattered information from long documents or across multiple documents into coherent answers. However, this setting is still poorly supported by existing benchmarks and evaluation methods, which often lack stable abstract references or rely on coarse similarity metrics and unstable head-to-head comparisons. To alleviate this issue, we introduce ASTRA-QA, a benchmark for AbSTRAct Question Answering over documents. ASTRA-QA contains 869 QA instances over academic papers and news documents, covering five abstract question types and three controlled retrieval scopes. Each instance is equipped with explicit evaluation annotations, including answer topic sets, curated unsupported topics, and aligned evidence. Building on these annotations, ASTRA-QA assesses whether answers cover required key points and avoid unsupported content by directly scoring topic coverage and curated unsupported content, enabling scalable evaluation without exhaustive head-to-head comparisons. Experiments with representative Retrieval-Augmented Generation (RAG) methods spanning vanilla, graph-based, and hierarchical retrieval settings show that ASTRA-QA provides reference-grounded diagnostics for coverage, hallucination, and retrieval-scope robustness. Our dataset and code are available at https://xinyangsally.github.io/astra-benchmark.
- Abstract(参考訳): 文書ベースの質問応答(QA)は、長い文書や複数の文書に散在する情報を一貫性のある回答に合成する必要がある抽象的な質問をますます含んでいる。
しかし、この設定は、しばしば安定した抽象的な参照が欠如したり、粗い類似度メトリクスと不安定な頭対頭比較に依存している、既存のベンチマークや評価手法によってまだサポートされていない。
この問題を軽減するために、文書に対するAbSTRAct Question AnsweringのベンチマークであるASTRA-QAを導入する。
ASTRA-QAには学術論文やニュースドキュメントに869のQAインスタンスが含まれており、5つの抽象的な質問タイプと3つの制御された検索範囲をカバーしている。
各インスタンスには明確な評価アノテーションが備わっており、応答トピックセット、キュレートされたサポート対象トピック、アライメントされたエビデンスが含まれている。
これらのアノテーションに基づいて、ASTRA-QAは、トピックのカバレッジとキュレートされたサポートコンテンツを直接スコアリングすることで、必要なキーポイントと非サポートコンテンツをカバーするかどうかを評価し、徹底的なヘッド・ツー・ヘッド比較を行なわずにスケーラブルな評価を可能にする。
また,バニラ,グラフベース,階層的な検索設定にまたがるRAG(Retrieval-Augmented Generation)手法を用いた実験により,ASTRA-QAが対象範囲,幻覚,検索スコープのロバストネスの基準基底診断を行うことを示した。
データセットとコードはhttps://xinyangsally.github.io/astra-benchmark.comから入手可能です。
関連論文リスト
- ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [50.93758649363798]
Impliretは、推論の課題をドキュメント側処理にシフトするベンチマークである。
我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文 参考訳(メタデータ) (2025-06-17T11:08:29Z) - Hierarchical Retrieval with Evidence Curation for Open-Domain Financial Question Answering on Standardized Documents [9.173952465423966]
標準化されたドキュメントは、反復的なボイラープレートテキストや同様のテーブル構造など、同様のフォーマットを共有している。
この類似性により、従来のRAGメソッドは、ほぼ重複したテキストを誤識別し、精度と完全性を損なう重複検索につながる。
本稿では,これらの問題に対処するためのEvidence Curationフレームワークを用いた階層検索手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T11:08:23Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs [33.87001216244801]
Attributed Question Answering (AQA) は注目されているが、その属性を評価するにはいくつかの制限がある。
本稿では,包括的帰属カテゴリを含む大規模ベンチマークであるCAQAを紹介する。
我々はCAQAの有効性を検証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-01-26T04:11:07Z) - IfQA: A Dataset for Open-domain Question Answering under Counterfactual
Presuppositions [54.23087908182134]
本稿では,QA(FifQA)と呼ばれる,最初の大規模対実的オープンドメイン質問応答(QA)ベンチマークを紹介する。
IfQAデータセットには3,800以上の質問が含まれている。
IfQAベンチマークによって引き起こされるユニークな課題は、検索と対実的推論の両方に関して、オープンドメインのQA研究を促進することである。
論文 参考訳(メタデータ) (2023-05-23T12:43:19Z) - Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering [6.224211330728391]
研究者は貴重な技術知識を含む何千もの学術文書を作成した。
文書レベルの質問応答(QA)は、人間の提案する質問を適応して多様な知識を抽出できる柔軟なフレームワークを提供する。
本稿では,PDFからテキストを抽出する3段階の文書QAアプローチ,抽出したテキストからエビデンスを抽出して適切な文脈を形成する方法,文脈から知識を抽出して高品質な回答を返すためのQAを提案する。
論文 参考訳(メタデータ) (2022-10-04T23:33:52Z) - QA-Align: Representing Cross-Text Content Overlap by Aligning
Question-Answer Propositions [12.264795812337153]
本稿では,情報統合のための足場として,テキスト間の述語関係の整合性を提案する。
我々の設定はQA-SRLを利用して、質問応答ペアを用いて述語-論証関係をキャプチャする。
分析によると、私たちの新しいタスクはセマンティックに困難であり、語彙的類似性を超えてコンテンツの重複を捉えている。
論文 参考訳(メタデータ) (2021-09-26T17:19:48Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z) - Query Focused Multi-Document Summarization with Distant Supervision [88.39032981994535]
既存の作業は、クエリとテキストセグメント間の関連性を推定する検索スタイルの手法に大きく依存している。
本稿では,クエリに関連するセグメントを推定するための個別モジュールを導入した粗大なモデリングフレームワークを提案する。
我々のフレームワークは、標準QFSベンチマークにおいて、強力な比較システムよりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-04-06T22:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。