論文の概要: DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search
- arxiv url: http://arxiv.org/abs/2602.05014v2
- Date: Fri, 06 Feb 2026 07:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 14:54:43.080107
- Title: DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search
- Title(参考訳): DeepRead: エージェント検索の強化を目的としたドキュメント構造認識推論
- Authors: Zhanli Li, Huiwen Tian, Lvzhou Luo, Yixuan Cao, Ping Luo,
- Abstract要約: 本稿では,構造化対応マルチターン文書推論エージェントDeepReadを紹介する。
文書質問応答において,DeepReadは検索-o1スタイルのエージェント検索よりも大幅に改善されていることを示す。
我々の微粒な行動分析では、人間に似た読みと推論のパラダイムが示され、読みの振る舞いがわかる。
- 参考スコア(独自算出の注目度): 23.447631421934847
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid progress of tool-using and agentic large language models (LLMs), Retrieval-Augmented Generation (RAG) is evolving from one-shot, passive retrieval into multi-turn, decision-driven evidence acquisition. Despite strong results in open-domain settings, existing agentic search frameworks commonly treat long documents as flat collections of chunks, underutilizing document-native priors such as hierarchical organization and sequential discourse structure. We introduce DeepRead, a structure-aware, multi-turn document reasoning agent that explicitly operationalizes these priors for long-document question answering. DeepRead leverages LLM-based OCR model to convert PDFs into structured Markdown that preserves headings and paragraph boundaries. It then indexes documents at the paragraph level and assigns each paragraph a coordinate-style metadata key encoding its section identity and in-section order. Building on this representation, DeepRead equips the LLM with two complementary tools: a Retrieve tool that localizes relevant paragraphs while exposing their structural coordinates (with lightweight scanning context), and a ReadSection tool that enables contiguous, order-preserving reading within a specified section and paragraph range. Our experiments demonstrate that DeepRead achieves significant improvements over Search-o1-style agentic search in document question answering. The synergistic effect between retrieval and reading tools is also validated. Our fine-grained behavioral analysis reveals a reading and reasoning paradigm resembling human-like ``locate then read'' behavior.
- Abstract(参考訳): ツール・ユース・エージェント型大規模言語モデル(LLM)の急速な進歩に伴い、レトリーバル・拡張生成(RAG)はワンショット・パッシブ・検索からマルチターン・意思決定型エビデンス獲得へと進化している。
オープンドメイン設定の強い結果にもかかわらず、既存のエージェント検索フレームワークは通常、長いドキュメントをフラットなチャンクのコレクションとして扱う。
本稿では,構造化対応マルチターン文書推論エージェントであるDeepReadを紹介した。
DeepRead は LLM ベースの OCR モデルを利用して,PDF を方向と段落境界を保存する構造化マークダウンに変換する。
次に、各段落レベルで文書を索引付けし、各段落にそのセクションアイデンティティとセクション内の順序をコードする座標スタイルのメタデータキーを割り当てる。
この表現に基づいて、DeepRead は LLM に2つの補完ツールを提供する: 関連する段落をローカライズする Retrieve ツールで、(軽量なスキャンコンテキストで)構造座標を公開し、また、特定のセクションと段落の範囲内で連続して順序を保存する ReadSection ツールである。
実験の結果,DeepReadは文書質問応答における検索-o1スタイルのエージェント検索よりも大幅に改善されていることがわかった。
また,検索ツールと読書ツールの相乗効果も検証した。
我々の微粒な行動分析は、人間に似た「位置して読みなさい」行動に似た読解と推論のパラダイムを明らかにします。
関連論文リスト
- MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - ALDEN: Reinforcement Learning for Active Navigation and Evidence Gathering in Long Documents [17.497004687630742]
視覚言語モデル(VLM)は、テキストリッチな画像の解釈に優れるが、長い、視覚的に複雑な文書に苦しむ。
対話型エージェントとしてVLMを微調整する多ターン強化学習フレームワークであるActive Long-DocumEnt Navigation (ALDEN)を提案する。
論文 参考訳(メタデータ) (2025-10-29T16:32:26Z) - Model-Document Protocol for AI Search [11.377241012645994]
原文が大規模言語モデル (LLM) にどのようにブリッジされているかを形式化する汎用フレームワークである Model-Document Protocol (MDP) を導入する。
MDPは、検索をパスフェッチとして扱う代わりに、構造化されていない文書をタスク固有のLCM対応の入力に変換する複数の経路を定義している。
本稿では,エージェントプロセスを通じてプロトコルを実現するMPP-Agentを提案する。
論文 参考訳(メタデータ) (2025-10-29T04:29:17Z) - Struc-EMB: The Potential of Structure-Aware Encoding in Language Embeddings [16.728984584960738]
本稿では,構造認識テキストの埋め込み生成のための新しいパラダイムを,体系的に導入し,評価する。
本稿では,逐次連結と並列キャッシングという2つのプロセス内手法について検討する。
並列キャッシングは、長い高信号のコンテキストに対してより効果的にスケールするが、気晴らしにはより敏感である。
論文 参考訳(メタデータ) (2025-10-09T19:45:54Z) - Equipping Retrieval-Augmented Large Language Models with Document Structure Awareness [15.810758425275322]
本稿では,RAGプロセス全体を通して構造情報を明示的に組み込む新しいフレームワークであるRetrieve-DocumentRoute-Read (RDR2)を提案する。
RDR2 は LLM ベースのルータを用いて文書構造木を動的にナビゲートする。
我々の重要な革新は、文書のルーティングをトレーニング可能なタスクとして定式化することであり、自動的なアクションキュレーションと、人間の読書戦略にインスパイアされた構造対応の通路選択である。
論文 参考訳(メタデータ) (2025-10-05T17:04:24Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。