論文の概要: BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents
- arxiv url: http://arxiv.org/abs/2512.03413v1
- Date: Wed, 03 Dec 2025 03:40:49 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:11:31.922921
- Title: BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents
- Title(参考訳): BookRAG: 複雑な文書の検索拡張生成のための階層構造対応インデックスベースアプローチ
- Authors: Shu Wang, Yingli Zhou, Yixiang Fang,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 11.158307125677375
- License:
- Abstract: As an effective method to boost the performance of Large Language Models (LLMs) on the question answering (QA) task, Retrieval-Augmented Generation (RAG), which queries highly relevant information from external complex documents, has attracted tremendous attention from both industry and academia. Existing RAG approaches often focus on general documents, and they overlook the fact that many real-world documents (such as books, booklets, handbooks, etc.) have a hierarchical structure, which organizes their content from different granularity levels, leading to poor performance for the QA task. To address these limitations, we introduce BookRAG, a novel RAG approach targeted for documents with a hierarchical structure, which exploits logical hierarchies and traces entity relations to query the highly relevant information. Specifically, we build a novel index structure, called BookIndex, by extracting a hierarchical tree from the document, which serves as the role of its table of contents, using a graph to capture the intricate relationships between entities, and mapping entities to tree nodes. Leveraging the BookIndex, we then propose an agent-based query method inspired by the Information Foraging Theory, which dynamically classifies queries and employs a tailored retrieval workflow. Extensive experiments on three widely adopted benchmarks demonstrate that BookRAG achieves state-of-the-art performance, significantly outperforming baselines in both retrieval recall and QA accuracy while maintaining competitive efficiency.
- Abstract(参考訳): 質問応答(QA)タスクにおけるLarge Language Models(LLMs)の性能向上に有効な方法として,外部の複雑な文書から関連性の高い情報をクエリするRetrieval-Augmented Generation(RAG)が注目されている。
既存のRAGアプローチは一般的な文書に重点を置いていることが多く、多くの現実世界の文書(書籍、書店、ハンドブックなど)が階層構造を持ち、内容が粒度の異なるレベルから整理され、QAタスクのパフォーマンスが低下するという事実を見落としている。
これらの制約に対処するため,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを導入する。
具体的には、文書から階層木を抽出し、内容表の役割を担い、エンティティ間の複雑な関係を捉え、エンティティをツリーノードにマッピングすることで、BookIndexと呼ばれる新しいインデックス構造を構築する。
BookIndexを活用することで、動的にクエリを分類し、カスタマイズされた検索ワークフローを利用する、Information Foraging Theoryにインスパイアされたエージェントベースのクエリ手法を提案する。
広く採用されている3つのベンチマーク実験により、BookRAGは最先端のパフォーマンスを達成し、競争効率を維持しつつ、検索リコールとQA精度の両方において、ベースラインを著しく上回っていることが示された。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - Mixture-of-RAG: Integrating Text and Tables with Large Language Models [5.038576104344948]
不均一文書RAGは、テキストデータと階層データ間の共同検索と推論を必要とする。
階層構造と異種関係を保存する新しい3段階フレームワークであるMixRAGを提案する。
実験の結果、MixRAGは強いテキストのみ、テーブルのみ、ナイーブミキサーベースラインよりもトップ1検索を46%向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-13T13:02:33Z) - ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - DOGR: Leveraging Document-Oriented Contrastive Learning in Generative Retrieval [10.770281363775148]
生成検索における文書指向コントラスト学習(DOGR)の活用という,新規で汎用的な生成検索フレームワークを提案する。
クエリとドキュメントの関係を,直接的なインタラクションを通じて包括的にキャプチャする,2段階の学習戦略を採用している。
意味表現の学習を促進するために、否定的サンプリング手法とそれに対応するコントラスト学習目的を実装した。
論文 参考訳(メタデータ) (2025-02-11T03:25:42Z) - Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。
データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。
プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (2025-01-19T12:57:13Z) - KG-Retriever: Efficient Knowledge Indexing for Retrieval-Augmented Large Language Models [38.93603907879804]
KG-Retrieverと呼ばれる階層的な知識検索機能を備えた新しい知識グラフベースのRAGフレームワークを提案する。
グラフ構造の結合性は、ドキュメント内およびドキュメント間接続性を強化するために完全に活用されている。
近隣の文書からの粗粒度の協調情報と知識グラフからの簡潔な情報により、KG-Retrieverは5つの公開QAデータセットに対して顕著な改善を達成している。
論文 参考訳(メタデータ) (2024-12-07T05:49:14Z) - Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。