論文の概要: DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search
- arxiv url: http://arxiv.org/abs/2602.05014v3
- Date: Thu, 12 Feb 2026 02:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 14:31:53.384258
- Title: DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search
- Title(参考訳): DeepRead: エージェント検索の強化を目的としたドキュメント構造認識推論
- Authors: Zhanli Li, Huiwen Tian, Lvzhou Luo, Yixuan Cao, Ping Luo,
- Abstract要約: DeepReadは、ドキュメントネイティブな構造的事前を動作可能な推論機能に運用するために設計された、構造対応のドキュメント推論エージェントである。
DeepReadは、従来の検索手法に固有のコンテキストの断片化を効果的に軽減する、人間のような位置読み取りの推論パラダイムを提供する。
- 参考スコア(独自算出の注目度): 23.447631421934847
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid advancement of tool-use capabilities in Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) is shifting from static, one-shot retrieval toward autonomous, multi-turn evidence acquisition. However, existing agentic search frameworks typically treat long documents as flat collections of unstructured chunks, disregarding the native hierarchical organization and sequential logic essential for human comprehension. To bridge this gap, we introduce \textbf{DeepRead}, a structure-aware document reasoning agent designed to operationalize document-native structural priors into actionable reasoning capabilities. Leveraging the structural fidelity of modern OCR, DeepRead constructs a paragraph-level, coordinate-based navigation system and equips the LLM with two synergistic tools: \textsf{Retrieve} for scanning-aware localization, and \textsf{ReadSection} for contiguous, order-preserving reading within specific hierarchical scopes. This design elicits a human-like ``locate-then-read'' reasoning paradigm, effectively mitigating the context fragmentation inherent in traditional retrieval methods. Extensive evaluations across four benchmarks spanning diverse document types demonstrate that DeepRead outperforms Search-o1-style agentic search baselines by an average of 10.3\%. Fine-grained behavioral analysis further confirms that DeepRead autonomously adopts human-aligned reading strategies, validating the critical role of structural awareness in achieving precise document reasoning. Our code is available at https://github.com/Zhanli-Li/DeepRead.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるツール利用能力の急速な進歩に伴い、検索能力は静的な1ショットの検索から、自律的なマルチターンエビデンス獲得へとシフトしつつある。
しかし、既存のエージェント検索フレームワークは、典型的には、長い文書を非構造化チャンクのフラットコレクションとして扱い、ネイティブ階層構造や人間の理解に不可欠なシーケンシャル論理を無視している。
このギャップを埋めるために、ドキュメントネイティブな構造的先行を動作可能な推論機能に運用するために設計された構造対応のドキュメント推論エージェントである \textbf{DeepRead} を紹介します。
現代のOCRの構造的忠実性を活用して、DeepReadは段落レベルの座標ベースのナビゲーションシステムを構築し、LLMに2つの相乗的ツールを装備する: 走査型ローカライゼーションのための \textsf{Retrieve} と、特定の階層的スコープ内の連続的順序保存のための \textsf{ReadSection} である。
この設計は、従来の検索手法に固有の文脈の断片化を効果的に軽減し、人間のような ‘locate-then-read’ 推論パラダイムを導出する。
さまざまなドキュメントタイプにまたがる4つのベンチマークの大規模な評価は、DeepReadが検索-o1スタイルのエージェント検索ベースラインを平均10.3\%上回っていることを示している。
きめ細かい行動分析により、DeepReadは人力による読解戦略を自律的に採用し、正確な文書推論を達成する上で構造的認識の重要な役割を検証している。
私たちのコードはhttps://github.com/Zhanli-Li/DeepRead.comから入手可能です。
関連論文リスト
- FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - ALDEN: Reinforcement Learning for Active Navigation and Evidence Gathering in Long Documents [17.497004687630742]
視覚言語モデル(VLM)は、テキストリッチな画像の解釈に優れるが、長い、視覚的に複雑な文書に苦しむ。
対話型エージェントとしてVLMを微調整する多ターン強化学習フレームワークであるActive Long-DocumEnt Navigation (ALDEN)を提案する。
論文 参考訳(メタデータ) (2025-10-29T16:32:26Z) - Model-Document Protocol for AI Search [11.377241012645994]
原文が大規模言語モデル (LLM) にどのようにブリッジされているかを形式化する汎用フレームワークである Model-Document Protocol (MDP) を導入する。
MDPは、検索をパスフェッチとして扱う代わりに、構造化されていない文書をタスク固有のLCM対応の入力に変換する複数の経路を定義している。
本稿では,エージェントプロセスを通じてプロトコルを実現するMPP-Agentを提案する。
論文 参考訳(メタデータ) (2025-10-29T04:29:17Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。