論文の概要: Cross-Document Topic-Aligned Chunking for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.05265v1
- Date: Sat, 08 Nov 2025 11:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.533608
- Title: Cross-Document Topic-Aligned Chunking for Retrieval-Augmented Generation
- Title(参考訳): 検索向上のためのクロスドキュメント・トピックアライメント・チャンキング
- Authors: Mile Stankovic,
- Abstract要約: Cross-Document Topic-Alignedチャンキングは、コーパスレベルで知識を再構築する。
まず、文書間でトピックを特定し、各トピックにセグメントをマップし、それらを統一されたチャンクに合成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chunking quality determines RAG system performance. Current methods partition documents individually, but complex queries need information scattered across multiple sources: the knowledge fragmentation problem. We introduce Cross-Document Topic-Aligned (CDTA) chunking, which reconstructs knowledge at the corpus level. It first identifies topics across documents, maps segments to each topic, and synthesizes them into unified chunks. On HotpotQA multi-hop reasoning, our method reached 0.93 faithfulness versus 0.83 for contextual retrieval and 0.78 for semantic chunking, a 12% improvement over current industry best practice (p < 0.05). On UAE Legal texts, it reached 0.94 faithfulness with 0.93 citation accuracy. At k = 3, it maintains 0.91 faithfulness while semantic methods drop to 0.68, with a single CDTA chunk containing information requiring multiple traditional fragments. Indexing costs are higher, but synthesis produces information-dense chunks that reduce query-time retrieval needs. For high-query-volume applications with distributed knowledge, cross-document synthesis improves measurably over within-document optimization.
- Abstract(参考訳): チャンキング品質はRAGシステム性能を決定する。
現在の方法では文書を個別に分割するが、複雑なクエリには複数のソースにまたがる情報が必要である。
コーパスレベルで知識を再構築するCDTAチャンキングを導入する。
まず、文書間でトピックを特定し、各トピックにセグメントをマップし、それらを統一されたチャンクに合成する。
HotpotQAマルチホップ推論では,文脈検索では0.83,セマンティックチャンキングでは0.78,現在の業界ベストプラクティスでは12%の改善(p<05。
UAE法典では、0.94の忠実さと0.93の引用精度に達した。
k = 3では0.91の忠実さを維持し、セマンティックメソッドは0.68に減少し、1つのCDTAチャンクは複数の伝統的な断片を必要とする情報を含んでいる。
インデックス作成コストは高いが、合成はクエリ時間検索の必要性を減らす情報密度チャンクを生成する。
分散知識を持つ高クエリボリュームアプリケーションでは、クロスドキュメント合成はドキュメント内最適化よりも測定精度が向上する。
関連論文リスト
- Chunk Knowledge Generation Model for Enhanced Information Retrieval: A Multi-task Learning Approach [13.945285357933487]
本研究では,文書をチャンク単位に分割し,チャンク毎のテキストデータを生成し,検索効率と精度を同時に向上する手法を提案する。
提案した「チャンク知識生成モデル」では、T5ベースのマルチタスク学習構造を採用し、各文書チャンクからタイトルと候補質問を同時に生成する。
GPTに基づく305のクエリドキュメントペアの評価では、提案したモデルによる検索がTop@10で95.41%の精度を達成した。
論文 参考訳(メタデータ) (2025-09-19T06:32:30Z) - ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。
擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文 参考訳(メタデータ) (2025-07-31T03:14:45Z) - Knowledge Compression via Question Generation: Enhancing Multihop Document Retrieval without Fine-tuning [42.35305639777465]
本研究では,細調整や従来のチャンキングを必要とせずに,検索強化生成(RAG)システムを改善する質問ベースの知識符号化手法を提案する。
テキストコンテンツは語彙空間と意味空間にまたがって生成された質問を用いてエンコードされ、ターゲット検索キューと独自の構文再構成手法が組み合わさって生成される。
109件の科学論文のシングルホップ検索では、Recall@3が0.84となり、従来のチャンキング手法よりも60%向上した。
論文 参考訳(メタデータ) (2025-06-09T16:15:11Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - Multi-view Content-aware Indexing for Long Document Retrieval [19.74258792456242]
Long Document Question answering (DocQA) は、10kワード以上の長いドキュメントからの質問に答えることを目的としている。
より効果的な長いDocQAのためのMulti-view Content-Aware Indexing (MC-indexing)を提案する。
MCインデクシングによりリコール率は42.8%、30.0%、23.9%、トップk=1.5、3、5、10で16.3%増加した。
論文 参考訳(メタデータ) (2024-04-23T14:55:32Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Differentiable Reasoning over a Virtual Knowledge Base [156.94984221342716]
コーパスを仮想知識ベース(KB)として,複雑なマルチホップ質問に答えるタスクについて検討する。
特に、コーパス内のエンティティの参照間の関係の経路をソフトに追従し、KBのようにテキストデータをトラバースするDrKITについて述べる。
DrKITは非常に効率的で、既存のマルチホップシステムよりも毎秒10-100倍のクエリを処理する。
論文 参考訳(メタデータ) (2020-02-25T03:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。