論文の概要: DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search
- arxiv url: http://arxiv.org/abs/2602.05014v1
- Date: Wed, 04 Feb 2026 20:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.599061
- Title: DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search
- Title(参考訳): DeepRead: エージェント検索の強化を目的としたドキュメント構造認識推論
- Authors: Zhanli Li, Huiwen Tian, Lvzhou Luo, Yixuan Cao, Ping Luo,
- Abstract要約: 本稿では,構造化対応マルチターン文書推論エージェントDeepReadを紹介する。
文書質問応答において,DeepReadは検索-o1スタイルのエージェント検索よりも大幅に改善されていることを示す。
我々の微粒な行動分析では、人間に似た読みと推論のパラダイムが示され、読みの振る舞いがわかる。
- 参考スコア(独自算出の注目度): 23.447631421934847
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid progress of tool-using and agentic large language models (LLMs), Retrieval-Augmented Generation (RAG) is evolving from one-shot, passive retrieval into multi-turn, decision-driven evidence acquisition. Despite strong results in open-domain settings, existing agentic search frameworks commonly treat long documents as flat collections of chunks, underutilizing document-native priors such as hierarchical organization and sequential discourse structure. We introduce DeepRead, a structure-aware, multi-turn document reasoning agent that explicitly operationalizes these priors for long-document question answering. DeepRead leverages LLM-based OCR model to convert PDFs into structured Markdown that preserves headings and paragraph boundaries. It then indexes documents at the paragraph level and assigns each paragraph a coordinate-style metadata key encoding its section identity and in-section order. Building on this representation, DeepRead equips the LLM with two complementary tools: a Retrieve tool that localizes relevant paragraphs while exposing their structural coordinates (with lightweight scanning context), and a ReadSection tool that enables contiguous, order-preserving reading within a specified section and paragraph range. Our experiments demonstrate that DeepRead achieves significant improvements over Search-o1-style agentic search in document question answering. The synergistic effect between retrieval and reading tools is also validated. Our fine-grained behavioral analysis reveals a reading and reasoning paradigm resembling human-like ``locate then read'' behavior.
- Abstract(参考訳): ツール・ユース・エージェント型大規模言語モデル(LLM)の急速な進歩に伴い、レトリーバル・拡張生成(RAG)はワンショット・パッシブ・検索からマルチターン・意思決定型エビデンス獲得へと進化している。
オープンドメイン設定の強い結果にもかかわらず、既存のエージェント検索フレームワークは通常、長いドキュメントをフラットなチャンクのコレクションとして扱う。
本稿では,構造化対応マルチターン文書推論エージェントであるDeepReadを紹介した。
DeepRead は LLM ベースの OCR モデルを利用して,PDF を方向と段落境界を保存する構造化マークダウンに変換する。
次に、各段落レベルで文書を索引付けし、各段落にそのセクションアイデンティティとセクション内の順序をコードする座標スタイルのメタデータキーを割り当てる。
この表現に基づいて、DeepRead は LLM に2つの補完ツールを提供する: 関連する段落をローカライズする Retrieve ツールで、(軽量なスキャンコンテキストで)構造座標を公開し、また、特定のセクションと段落の範囲内で連続して順序を保存する ReadSection ツールである。
実験の結果,DeepReadは文書質問応答における検索-o1スタイルのエージェント検索よりも大幅に改善されていることがわかった。
また,検索ツールと読書ツールの相乗効果も検証した。
我々の微粒な行動分析は、人間に似た「位置して読みなさい」行動に似た読解と推論のパラダイムを明らかにします。
関連論文リスト
- FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - ALDEN: Reinforcement Learning for Active Navigation and Evidence Gathering in Long Documents [17.497004687630742]
視覚言語モデル(VLM)は、テキストリッチな画像の解釈に優れるが、長い、視覚的に複雑な文書に苦しむ。
対話型エージェントとしてVLMを微調整する多ターン強化学習フレームワークであるActive Long-DocumEnt Navigation (ALDEN)を提案する。
論文 参考訳(メタデータ) (2025-10-29T16:32:26Z) - Model-Document Protocol for AI Search [11.377241012645994]
原文が大規模言語モデル (LLM) にどのようにブリッジされているかを形式化する汎用フレームワークである Model-Document Protocol (MDP) を導入する。
MDPは、検索をパスフェッチとして扱う代わりに、構造化されていない文書をタスク固有のLCM対応の入力に変換する複数の経路を定義している。
本稿では,エージェントプロセスを通じてプロトコルを実現するMPP-Agentを提案する。
論文 参考訳(メタデータ) (2025-10-29T04:29:17Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。