論文の概要: DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering
- arxiv url: http://arxiv.org/abs/2603.11798v1
- Date: Thu, 12 Mar 2026 11:00:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.031375
- Title: DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering
- Title(参考訳): DocSage:マルチドキュメント多要素質問応答のための情報構造化エージェント
- Authors: Teng Lin, Yizhang Zhu, Zhengxuan Zhang, Yuyu Luo, Nan Tang,
- Abstract要約: マルチドキュメント マルチエンティティ 回答 本質的には、複数のエンティティ間の暗黙のロジックを、散在するドキュメント間で追跡するようモデルに要求する。
既存のLarge Language Models (LLM) とRetrieval-Augmented Generation (RAG) フレームワークは、限界に悩まされている。
動的スキーマ発見、構造化情報抽出、エラー保証付きスキーマ対応リレーショナル推論を統合したエンドツーエンドのエージェントフレームワークであるDocSageを提案する。
- 参考スコア(独自算出の注目度): 11.177470565638666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-document Multi-entity Question Answering inherently demands models to track implicit logic between multiple entities across scattered documents. However, existing Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) frameworks suffer from critical limitations: standard RAG's vector similarity-based coarse-grained retrieval often omits critical facts, graph-based RAG fails to efficiently integrate fragmented complex relationship networks, and both lack schema awareness, leading to inadequate cross-document evidence chain construction and inaccurate entity relationship deduction. To address these challenges, we propose DocSage, an end-to-end agentic framework that integrates dynamic schema discovery, structured information extraction, and schema-aware relational reasoning with error guarantees. DocSage operates through three core modules: (1) A schema discovery module dynamically infers query-specific minimal joinable schemas to capture essential entities and relationships; (2) An extraction module transforms unstructured text into semantically coherent relational tables, enhanced by error-aware correction mechanisms to reduce extraction errors; (3) A reasoning module performs multi-hop relational reasoning over structured tables, leveraging schema awareness to efficiently align cross-document entities and aggregate evidence. This agentic design offers three key advantages: precise fact localization via SQL-powered indexing, natural support for cross-document entity joins through relational tables, and mitigated LLM attention diffusion via structured representation. Evaluations on two MDMEQA benchmarks demonstrate that DocSage significantly outperforms state-of-the-art long-context LLMs and RAG systems, achieving more than 27% accuracy improvements respectively.
- Abstract(参考訳): マルチドキュメント マルチエンティティ 回答 本質的には、複数のエンティティ間の暗黙のロジックを、散在するドキュメント間で追跡するようモデルに要求する。
しかし、既存のLarge Language Models (LLMs) と Retrieval-Augmented Generation (RAG) フレームワークは、重大な制限に悩まされている: 標準RAGのベクトル類似性に基づく粗粒度検索は、しばしば重要な事実を省略する。
これらの課題に対処するために、動的スキーマ発見、構造化情報抽出、エラー保証付きスキーマ対応リレーショナル推論を統合するエンドツーエンドのエージェントフレームワークであるDocSageを提案する。
DocSageは,(1)スキーマ発見モジュールがクエリ固有の最小結合可能なスキーマを動的に推論し,必須エンティティや関係を捕捉する,(2)抽出モジュールが非構造化テキストを意味的に一貫性のあるリレーショナルテーブルに変換する,(3)抽出エラーを低減するためのエラー認識補正機構によって強化される,(3)推論モジュールが構造化テーブル上でマルチホップリレーショナル推論を行い,スキーマ認識を利用してクロスドキュメントエンティティやアグリゲーションを効率的に調整する,という3つのコアモジュールを通じて動作する。
このエージェント設計は、SQLによるインデックス化による正確な事実ローカライゼーション、リレーショナルテーブルを介したクロスドキュメントエンティティの自然なサポート、構造化表現によるLLM注意拡散の緩和の3つの大きな利点を提供する。
2つのMDMEQAベンチマークで評価したところ、DocSageは最先端のLLMとRAGシステムより大幅に優れており、それぞれ27%以上の精度向上を実現している。
関連論文リスト
- DMAP: Human-Aligned Structural Document Map for Multimodal Document Understanding [30.54420648726099]
文書レベルの構造文書MAPは、階層的組織と多モード文書内の要素間関係の両方を符号化する。
この表現に基づいて、リフレクティブ推論エージェントは構造認識およびエビデンス駆動推論を実行する。
MMDocQAベンチマークの実験では、DMAPが文書固有の構造表現を人間の解釈パターンと一致させることが示されている。
論文 参考訳(メタデータ) (2026-01-26T06:38:25Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。
エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。
実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文 参考訳(メタデータ) (2025-06-03T04:19:47Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation [11.53083922927901]
HM-RAGは階層型マルチエージェントマルチモーダルRAGフレームワークである。
構造化、非構造化、グラフベースのデータ間での動的知識合成のための協調知能の先駆者である。
論文 参考訳(メタデータ) (2025-04-13T06:55:33Z) - GEGA: Graph Convolutional Networks and Evidence Retrieval Guided Attention for Enhanced Document-level Relation Extraction [15.246183329778656]
ドキュメントレベルの関係抽出(DocRE)は、構造化されていない文書テキストからエンティティ間の関係を抽出することを目的としている。
これらの課題を克服するために,DocREの新しいモデルであるGEGAを提案する。
我々は、広く使用されている3つのベンチマークデータセット、DocRED、Re-DocRED、Revisit-DocREDでGEGAモデルを評価する。
論文 参考訳(メタデータ) (2024-07-31T07:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。