論文の概要: Equipping Retrieval-Augmented Large Language Models with Document Structure Awareness
- arxiv url: http://arxiv.org/abs/2510.04293v1
- Date: Sun, 05 Oct 2025 17:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.567631
- Title: Equipping Retrieval-Augmented Large Language Models with Document Structure Awareness
- Title(参考訳): 文書構造を考慮した検索型大規模言語モデルの構築
- Authors: Lingnan Xu, Chong Feng, Kaiyuan Zhang, Liu Zhengyong, Wenqiang Xu, Fanqing Meng,
- Abstract要約: 本稿では,RAGプロセス全体を通して構造情報を明示的に組み込む新しいフレームワークであるRetrieve-DocumentRoute-Read (RDR2)を提案する。
RDR2 は LLM ベースのルータを用いて文書構造木を動的にナビゲートする。
我々の重要な革新は、文書のルーティングをトレーニング可能なタスクとして定式化することであり、自動的なアクションキュレーションと、人間の読書戦略にインスパイアされた構造対応の通路選択である。
- 参考スコア(独自算出の注目度): 15.810758425275322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) demonstrate impressive capabilities, their reliance on parametric knowledge often leads to factual inaccuracies. Retrieval-Augmented Generation (RAG) mitigates this by leveraging external documents, yet existing approaches treat retrieved passages as isolated chunks, ignoring valuable structure that is crucial for document organization. Motivated by this gap, we propose Retrieve-DocumentRoute-Read (RDR2), a novel framework that explicitly incorporates structural information throughout the RAG process. RDR2 employs an LLM-based router to dynamically navigate document structure trees, jointly evaluating content relevance and hierarchical relationships to assemble optimal evidence. Our key innovation lies in formulating document routing as a trainable task, with automatic action curation and structure-aware passage selection inspired by human reading strategies. Through comprehensive evaluation on five challenging datasets, RDR2 achieves state-of-the-art performance, demonstrating that explicit structural awareness significantly enhances RAG systems' ability to acquire and utilize knowledge, particularly in complex scenarios requiring multi-document synthesis.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な能力を示すが、パラメトリックな知識への依存はしばしば事実的不正確な結果をもたらす。
Retrieval-Augmented Generation (RAG)は、外部文書を活用することでこれを緩和するが、既存のアプローチでは、検索されたパスを孤立したチャンクとして扱い、ドキュメント組織にとって重要な価値ある構造を無視している。
本稿では,RAGプロセス全体を通して構造情報を明示的に組み込んだ新しいフレームワークであるRetrieve-DocumentRoute-Read (RDR2)を提案する。
RDR2 は LLM ベースのルータを用いて文書構造木を動的にナビゲートする。
我々の重要な革新は、文書のルーティングをトレーニング可能なタスクとして定式化することであり、自動的なアクションキュレーションと、人間の読書戦略にインスパイアされた構造対応の通路選択である。
RDR2は5つの挑戦的なデータセットの総合的な評価を通じて最先端のパフォーマンスを実現し、特に複数文書合成を必要とする複雑なシナリオにおいて、明示的な構造的認識がRAGシステムの知識獲得と活用能力を大幅に向上させることを示した。
関連論文リスト
- DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search [23.447631421934847]
DeepReadは、ドキュメントネイティブな構造的事前を動作可能な推論機能に運用するために設計された、構造対応のドキュメント推論エージェントである。
DeepReadは、従来の検索手法に固有のコンテキストの断片化を効果的に軽減する、人間のような位置読み取りの推論パラダイムを提供する。
論文 参考訳(メタデータ) (2026-02-04T20:03:28Z) - Disco-RAG: Discourse-Aware Retrieval-Augmented Generation [81.53888908988756]
生成プロセスに談話信号を注入する談話認識フレームワークであるディスコRAGを提案する。
提案手法は,チャンク内談話木を構築し,局所階層を捕捉し,クロスパスコヒーレンスをモデル化するためのチャンク間修辞グラフを構築する。
質問応答と長期文書要約ベンチマークの実験から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-07T20:32:50Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Structure-R1: Dynamically Leveraging Structural Knowledge in LLM Reasoning through Reinforcement Learning [29.722512436773638]
本稿では,検索したコンテンツを推論に最適化した構造化表現に変換するフレームワークであるtextscStructure-R1を提案する。
textscStructure-R1は、7Bスケールのバックボーンモデルとの競合性能を一貫して達成していることを示す。
我々の理論的分析は,情報密度と文脈的明瞭度を向上させることによって,構造化表現が推論をいかに促進するかを示す。
論文 参考訳(メタデータ) (2025-10-16T23:19:28Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - eSapiens: A Real-World NLP Framework for Multimodal Document Understanding and Enterprise Knowledge Processing [6.450269621190948]
企業環境での質問応答システムeSapiensを紹介する。
eSapiensは、二重モジュールアーキテクチャを介して構造化データベースと非構造化コーパスをブリッジする。
我々は、RAGTruthベンチマークでeSapiensを評価し、完全性、幻覚、文脈利用といった重要な側面における性能を分析した。
論文 参考訳(メタデータ) (2025-06-20T06:07:20Z) - Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - DOGR: Leveraging Document-Oriented Contrastive Learning in Generative Retrieval [10.770281363775148]
生成検索における文書指向コントラスト学習(DOGR)の活用という,新規で汎用的な生成検索フレームワークを提案する。
クエリとドキュメントの関係を,直接的なインタラクションを通じて包括的にキャプチャする,2段階の学習戦略を採用している。
意味表現の学習を促進するために、否定的サンプリング手法とそれに対応するコントラスト学習目的を実装した。
論文 参考訳(メタデータ) (2025-02-11T03:25:42Z) - StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z) - DocSynthv2: A Practical Autoregressive Modeling for Document Generation [43.84027661517748]
本稿では, 単純で効果的な自己回帰構造モデルの開発を通じて, Doc Synthv2と呼ばれる新しい手法を提案する。
我々のモデルは、レイアウトとテキストの両方を統合する点で際立ったものであり、既存のレイアウト生成アプローチを超える一歩を踏み出している。
論文 参考訳(メタデータ) (2024-06-12T16:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。