論文の概要: Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2605.00529v1
- Date: Fri, 01 May 2026 09:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.919694
- Title: Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation
- Title(参考訳): クロスドキュメント検索拡張生成のための階層的抽象木
- Authors: Ziwen Zhao, Menglin Yang,
- Abstract要約: $-RAGは2つの主要なコンポーネントを持つツリーRAGフレームワークである。
トークンレベルの質問応答からドキュメントレベルの要約まで,さまざまなタスクをサポートする。
RAPTORを25.9%、HippoRAG 2を7.4%上回っている。
- 参考スコア(独自算出の注目度): 3.338186852016847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) enhances large language models with external knowledge, and tree-based RAG organizes documents into hierarchical indexes to support queries at multiple granularities. However, existing Tree-RAG methods designed for single-document retrieval face critical challenges in scaling to cross-document multi-hop questions: (1) poor distribution adaptability, where $k$-means clustering introduces noise due to rigid distribution assumptions; (2) structural isolation, as tree indexes lack explicit cross-document connections; and (3) coarse abstraction, which obscures fine-grained details. To address these limitations, we propose $Ψ$-RAG, a tree-RAG framework with two key components. First, a hierarchical abstract tree index built through an iterative "merging and collapse" process that adapts to data distributions without a priori assumption. Second, a multi-granular retrieval agent that intelligently interacts with the knowledge base with reorganized queries and an agent-powered hybrid retriever. $Ψ$-RAG supports diverse tasks from token-level question answering to document-level summarization. On cross-document multi-hop QA benchmarks, it outperforms RAPTOR by 25.9% and HippoRAG 2 by 7.4% in average F1 score. Code is available at https://github.com/Newiz430/Psi-RAG.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部知識で大きな言語モデルを強化し、ツリーベースのRAGはドキュメントを階層的なインデックスに整理し、複数の粒度のクエリをサポートする。
しかし、単一文書検索用に設計された既存のツリー-RAG手法は、(1)分散適応性の低い、$k$-meansクラスタリングでは、厳密な分布仮定によるノイズが発生する、(2)ツリーインデックスが明示的なクロスドキュメント接続を欠く構造的分離、(3)きめ細かい詳細を隠蔽する粗い抽象化といった、クロスドキュメントへのスケーリングにおいて重要な課題に直面している。
これらの制約に対処するため,2つのキーコンポーネントを持つ木-RAGフレームワークである$$-RAGを提案する。
まず、階層的な抽象ツリーインデックスを反復的な「マージと崩壊」プロセスで構築し、事前仮定なしでデータ分布に適応する。
第2に、知識ベースと知的に相互作用する多粒性検索エージェントを再構成クエリとエージェント駆動ハイブリッド検索器で行う。
トークンレベルの質問応答からドキュメントレベルの要約まで,さまざまなタスクをサポートする。
クロスドキュメントマルチホップQAベンチマークでは、RAPTORを25.9%、HippoRAG 2を7.4%上回っている。
コードはhttps://github.com/Newiz430/Psi-RAG.comで入手できる。
関連論文リスト
- MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries [2.756584457554517]
Map-Disambiguate-Enrich-Reduce (MDER)はコンテキスト由来の3重記述を生成し、エンティティレベルの要約と統合する。
Decompose-Resolve (DR)は、ユーザクエリを解決可能なトリプルに分解し、知識グラフに格納する。
MDERとDRはLLM駆動のQAパイプラインを形成し、スパース、不完全、複雑なリレーショナルデータに対して堅牢である。
論文 参考訳(メタデータ) (2026-03-11T18:38:44Z) - MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - Doc2Query++: Topic-Coverage based Document Expansion and its Application to Dense Retrieval via Dual-Index Fusion [8.523351031498839]
クエリ生成によるドキュメント拡張(DE)は、スパース検索において語彙ミスマッチに取り組むが、制限に直面している。
ドキュメントの潜在トピックをまず推測することでクエリ生成を構造化するDEフレームワークであるDoc2Query++を紹介します。
本稿では,テキストとクエリ信号を分離し,高密度設定における性能を向上させるDual-Index Fusion戦略を提案する。
論文 参考訳(メタデータ) (2025-10-10T17:07:48Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。
データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。
プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (2025-01-19T12:57:13Z) - SiReRAG: Indexing Similar and Related Information for Multihop Reasoning [96.60045548116584]
SiReRAGは、類似情報と関連する情報の両方を明示的に考慮する新しいRAGインデックス方式である。
SiReRAGは、3つのマルチホップデータセットの最先端インデックス手法を一貫して上回る。
論文 参考訳(メタデータ) (2024-12-09T04:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。