論文の概要: TopoChunker: Topology-Aware Agentic Document Chunking Framework
- arxiv url: http://arxiv.org/abs/2603.18409v1
- Date: Thu, 19 Mar 2026 02:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.912739
- Title: TopoChunker: Topology-Aware Agentic Document Chunking Framework
- Title(参考訳): TopoChunker: トポロジーを意識したエージェント文書チャンキングフレームワーク
- Authors: Xiaoyu Liu,
- Abstract要約: TopoChunkerは異種文書を構造化中間表現(Structured Intermediate Representation, SIR)にマッピングするエージェントフレームワークである
構造的忠実度と計算コストのバランスをとるため、TopoChunkerはデュアルエージェントアーキテクチャを採用している。
絶対生成精度が8.0%向上し、83.26%のRecall@3を達成し、同時にトークンオーバーヘッドを23.5%削減した。
- 参考スコア(独自算出の注目度): 5.304983617085637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current document chunking methods for Retrieval-Augmented Generation (RAG) typically linearize text. This forced linearization strips away intrinsic topological hierarchies, creating ``semantic fragmentation'' that degrades downstream retrieval quality. In this paper, we propose TopoChunker, an agentic framework that maps heterogeneous documents onto a Structured Intermediate Representation (SIR) to explicitly preserve cross-segment dependencies. To balance structural fidelity with computational cost, TopoChunker employs a dual-agent architecture. An Inspector Agent dynamically routes documents through cost-optimized extraction paths, while a Refiner Agent performs capacity auditing and topological context disambiguation to reconstruct hierarchical lineage. Evaluated on unstructured narratives (GutenQA) and complex reports (GovReport), TopoChunker demonstrates state-of-the-art performance. It outperforms the strongest LLM-based baseline by 8.0% in absolute generation accuracy and achieves an 83.26% Recall@3, while simultaneously reducing token overhead by 23.5%, offering a scalable approach for structure-aware RAG.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) の現在の文書チャンキング手法は、典型的にはテキストを線形化する。
この強制線形化は、固有のトポロジ的階層を排除し、下流の検索品質を劣化させる 'semantic fragmentation'' を生成する。
本稿では,異種文書を構造化中間表現(Structured Intermediate Representation, SIR)にマッピングし, クロスセグメント依存関係を明示的に保護するエージェントフレームワークであるTopoChunkerを提案する。
構造的忠実度と計算コストのバランスをとるため、TopoChunkerはデュアルエージェントアーキテクチャを採用している。
インスペクタエージェントは、コスト最適化された抽出経路を介して文書を動的にルーティングし、Refiner Agentはキャパシティ監査およびトポロジカルコンテキスト曖昧化を行い、階層的な系統を再構築する。
構造化されていない物語(GutenQA)と複雑な報告(GovReport)に基づいて評価されたTopoChunkerは、最先端のパフォーマンスを示している。
絶対生成精度が8.0%向上し、83.26%のRecall@3を実現し、同時にトークンオーバーヘッドを23.5%削減し、構造対応RAGのスケーラブルなアプローチを提供する。
関連論文リスト
- TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation [17.21708416305234]
textscTaSR-RAGは、エビデンス選択のための分類誘導構造推論フレームワークである。
textscTaSR-RAGは、強いRAGと構造化RAGベースラインを最大14%上回っている。
論文 参考訳(メタデータ) (2026-03-10T08:16:36Z) - MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search [23.447631421934847]
DeepReadは、ドキュメントネイティブな構造的事前を動作可能な推論機能に運用するために設計された、構造対応のドキュメント推論エージェントである。
DeepReadは、従来の検索手法に固有のコンテキストの断片化を効果的に軽減する、人間のような位置読み取りの推論パラダイムを提供する。
論文 参考訳(メタデータ) (2026-02-04T20:03:28Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - E-mem: Multi-agent based Episodic Context Reconstruction for LLM Agent Memory [4.8183840404266185]
E-memは、メモリ前処理からエピソードコンテキスト再構成に移行するフレームワークである。
E-memは54%以上のF1を達成し、最先端のGAMを7.75%上回り、トークンコストを70%以上削減している。
論文 参考訳(メタデータ) (2026-01-29T13:42:42Z) - Disco-RAG: Discourse-Aware Retrieval-Augmented Generation [81.53888908988756]
生成プロセスに談話信号を注入する談話認識フレームワークであるディスコRAGを提案する。
提案手法は,チャンク内談話木を構築し,局所階層を捕捉し,クロスパスコヒーレンスをモデル化するためのチャンク間修辞グラフを構築する。
質問応答と長期文書要約ベンチマークの実験から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-07T20:32:50Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。