論文の概要: Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets
- arxiv url: http://arxiv.org/abs/2604.22294v1
- Date: Fri, 24 Apr 2026 07:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.37781
- Title: Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets
- Title(参考訳): 長い文書集合に対するスケーラブルな質問回答のための構造化された推論
- Authors: Harshit Joshi, Priyank Shethia, Jadelynn Dao, Monica S. Lam,
- Abstract要約: 本稿では,長い文書コレクションに対する質問応答のためのフレームワークであるSLIDERSについて,構造化された推論を通して紹介する。
SLIDERSは、有能な情報をリレーショナルデータベースに抽出し、永続的な構造化状態に対するスケーラブルな推論を可能にする。
既存の3つのロングコンテキストベンチマークにおいて、すべてのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 7.102370558887478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world document question answering is challenging. Analysts must synthesize evidence across multiple documents and different parts of each document. However, any fixed LLM context window can be exceeded as document collections grow. A common workaround is to decompose documents into chunks and assemble answers from chunk-level outputs, but this introduces an aggregation bottleneck: as the number of chunks grows, systems must still combine and reason over an increasingly large body of extracted evidence. We present SLIDERS, a framework for question answering over long document collections through structured reasoning. SLIDERS extracts salient information into a relational database, enabling scalable reasoning over persistent structured state via SQL rather than concatenated text. To make this locally extracted representation globally coherent, SLIDERS introduces a data reconciliation stage that leverages provenance, extraction rationales, and metadata to detect and repair duplicated, inconsistent, and incomplete records. SLIDERS outperforms all baselines on three existing long-context benchmarks, despite all of them fitting within the context window of strong base LLMs, exceeding GPT-4.1 by 6.6 points on average. It also improves over the next best baseline by ~19 and ~32 points on two new benchmarks at 3.9M and 36M tokens, respectively.
- Abstract(参考訳): 現実の文書質問への回答は難しい。
アナリストは複数の文書とそれぞれの文書の異なる部分にわたる証拠を合成しなければならない。
しかし、ドキュメントコレクションが大きくなるにつれて、固定的なLLMコンテキストウィンドウは超えることができる。
一般的な回避策は、文書をチャンク単位で分解し、チャンクレベルのアウトプットから回答を組み立てることである。
本稿では,長い文書コレクションに対する質問応答のためのフレームワークであるSLIDERSについて,構造化された推論を通して紹介する。
SLIDERSは、有能な情報をリレーショナルデータベースに抽出し、連結されたテキストではなく、SQLを介して永続的な構造化状態に対するスケーラブルな推論を可能にする。
この局所的に抽出された表現をグローバルにコヒーレントにするために、SLIDERSは、重複した、一貫性のない、不完全なレコードを検出し、修復するための証明、抽出論理、メタデータを活用するデータ和解ステージを導入する。
SLIDERSは、GPT-4.1を平均6.6ポイント上回る、強力なLLMのコンテキストウィンドウに収まるにもかかわらず、既存の3つの長コンテキストベンチマークで全てのベースラインを上回っている。
また、それぞれ3.9Mと36Mの2つの新しいベンチマークで19点と32点に改善されている。
関連論文リスト
- MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - Panini: Continual Learning in Token Space via Structured Memory [4.979820180013486]
言語モデルは、トレーニングされていないコンテンツを推論するために、ますます使われています。
一般的なアプローチは検索拡張生成(RAG)であり、これは動詞の文書を(チャンクとして)外部に保存し、推論時に関連するサブセットのみを取得する。
本稿では,基本モデルを固定したままで,新たな経験を外部セマンティックメモリ状態に統合することで学習を行う,人間のような非パラメトリック連続学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:58:03Z) - Aggregation Queries over Unstructured Text: Benchmark and Agentic Method [20.80318496130298]
我々は、厳密な完全性を必要とするコーパス境界設定において、テキスト上のエンティティレベルアグリゲーションを形式化する。
AGGBenchは、現実的な大規模コーパスの下で完全性指向のアグリゲーションを評価するために設計されたベンチマークである。
DFAはモジュール型のエージェントベースラインで、集約クエリを解釈可能なステージに分解する。
論文 参考訳(メタデータ) (2026-02-01T17:49:33Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Mixture-of-RAG: Integrating Text and Tables with Large Language Models [5.038576104344948]
不均一文書RAGは、テキストデータと階層データ間の共同検索と推論を必要とする。
階層構造と異種関係を保存する新しい3段階フレームワークであるMixRAGを提案する。
実験の結果、MixRAGは強いテキストのみ、テーブルのみ、ナイーブミキサーベースラインよりもトップ1検索を46%向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-13T13:02:33Z) - Unstructured Evidence Attribution for Long Context Query Focused Summarization [53.08341620504465]
固定粒度の場合よりも、より関連性が高く一貫した証拠を得るために、非構造的(すなわち任意の長さのスパン)な証拠を抽出することを提案する。
既存のシステムが、非構造的証拠をコピーし、適切に引用するのにどのように苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z) - HERA: Improving Long Document Summarization using Large Language Models with Context Packaging and Reordering [6.876612430571396]
HERAと呼ばれる新しい要約生成フレームワークを提案する。
まず、その意味構造によって長い文書をセグメンテーションし、同じ事象に関するテキストセグメントを検索し、最後にそれらを並べ替えて入力コンテキストを形成する。
実験の結果,HERAはROUGE,BERTScore,忠実度測定において基礎モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-02-01T14:55:06Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。