論文の概要: DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search
- arxiv url: http://arxiv.org/abs/2602.05014v3
- Date: Thu, 12 Feb 2026 02:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 14:31:53.384258
- Title: DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search
- Title(参考訳): DeepRead: エージェント検索の強化を目的としたドキュメント構造認識推論
- Authors: Zhanli Li, Huiwen Tian, Lvzhou Luo, Yixuan Cao, Ping Luo,
- Abstract要約: DeepReadは、ドキュメントネイティブな構造的事前を動作可能な推論機能に運用するために設計された、構造対応のドキュメント推論エージェントである。
DeepReadは、従来の検索手法に固有のコンテキストの断片化を効果的に軽減する、人間のような位置読み取りの推論パラダイムを提供する。
- 参考スコア(独自算出の注目度): 23.447631421934847
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid advancement of tool-use capabilities in Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) is shifting from static, one-shot retrieval toward autonomous, multi-turn evidence acquisition. However, existing agentic search frameworks typically treat long documents as flat collections of unstructured chunks, disregarding the native hierarchical organization and sequential logic essential for human comprehension. To bridge this gap, we introduce \textbf{DeepRead}, a structure-aware document reasoning agent designed to operationalize document-native structural priors into actionable reasoning capabilities. Leveraging the structural fidelity of modern OCR, DeepRead constructs a paragraph-level, coordinate-based navigation system and equips the LLM with two synergistic tools: \textsf{Retrieve} for scanning-aware localization, and \textsf{ReadSection} for contiguous, order-preserving reading within specific hierarchical scopes. This design elicits a human-like ``locate-then-read'' reasoning paradigm, effectively mitigating the context fragmentation inherent in traditional retrieval methods. Extensive evaluations across four benchmarks spanning diverse document types demonstrate that DeepRead outperforms Search-o1-style agentic search baselines by an average of 10.3\%. Fine-grained behavioral analysis further confirms that DeepRead autonomously adopts human-aligned reading strategies, validating the critical role of structural awareness in achieving precise document reasoning. Our code is available at https://github.com/Zhanli-Li/DeepRead.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるツール利用能力の急速な進歩に伴い、検索能力は静的な1ショットの検索から、自律的なマルチターンエビデンス獲得へとシフトしつつある。
しかし、既存のエージェント検索フレームワークは、典型的には、長い文書を非構造化チャンクのフラットコレクションとして扱い、ネイティブ階層構造や人間の理解に不可欠なシーケンシャル論理を無視している。
このギャップを埋めるために、ドキュメントネイティブな構造的先行を動作可能な推論機能に運用するために設計された構造対応のドキュメント推論エージェントである \textbf{DeepRead} を紹介します。
現代のOCRの構造的忠実性を活用して、DeepReadは段落レベルの座標ベースのナビゲーションシステムを構築し、LLMに2つの相乗的ツールを装備する: 走査型ローカライゼーションのための \textsf{Retrieve} と、特定の階層的スコープ内の連続的順序保存のための \textsf{ReadSection} である。
この設計は、従来の検索手法に固有の文脈の断片化を効果的に軽減し、人間のような ‘locate-then-read’ 推論パラダイムを導出する。
さまざまなドキュメントタイプにまたがる4つのベンチマークの大規模な評価は、DeepReadが検索-o1スタイルのエージェント検索ベースラインを平均10.3\%上回っていることを示している。
きめ細かい行動分析により、DeepReadは人力による読解戦略を自律的に採用し、正確な文書推論を達成する上で構造的認識の重要な役割を検証している。
私たちのコードはhttps://github.com/Zhanli-Li/DeepRead.comから入手可能です。
関連論文リスト
- MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - ALDEN: Reinforcement Learning for Active Navigation and Evidence Gathering in Long Documents [17.497004687630742]
視覚言語モデル(VLM)は、テキストリッチな画像の解釈に優れるが、長い、視覚的に複雑な文書に苦しむ。
対話型エージェントとしてVLMを微調整する多ターン強化学習フレームワークであるActive Long-DocumEnt Navigation (ALDEN)を提案する。
論文 参考訳(メタデータ) (2025-10-29T16:32:26Z) - Model-Document Protocol for AI Search [11.377241012645994]
原文が大規模言語モデル (LLM) にどのようにブリッジされているかを形式化する汎用フレームワークである Model-Document Protocol (MDP) を導入する。
MDPは、検索をパスフェッチとして扱う代わりに、構造化されていない文書をタスク固有のLCM対応の入力に変換する複数の経路を定義している。
本稿では,エージェントプロセスを通じてプロトコルを実現するMPP-Agentを提案する。
論文 参考訳(メタデータ) (2025-10-29T04:29:17Z) - Struc-EMB: The Potential of Structure-Aware Encoding in Language Embeddings [16.728984584960738]
本稿では,構造認識テキストの埋め込み生成のための新しいパラダイムを,体系的に導入し,評価する。
本稿では,逐次連結と並列キャッシングという2つのプロセス内手法について検討する。
並列キャッシングは、長い高信号のコンテキストに対してより効果的にスケールするが、気晴らしにはより敏感である。
論文 参考訳(メタデータ) (2025-10-09T19:45:54Z) - Equipping Retrieval-Augmented Large Language Models with Document Structure Awareness [15.810758425275322]
本稿では,RAGプロセス全体を通して構造情報を明示的に組み込む新しいフレームワークであるRetrieve-DocumentRoute-Read (RDR2)を提案する。
RDR2 は LLM ベースのルータを用いて文書構造木を動的にナビゲートする。
我々の重要な革新は、文書のルーティングをトレーニング可能なタスクとして定式化することであり、自動的なアクションキュレーションと、人間の読書戦略にインスパイアされた構造対応の通路選択である。
論文 参考訳(メタデータ) (2025-10-05T17:04:24Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。