論文の概要: CHOP: Chunkwise Context-Preserving Framework for RAG on Multi Documents
- arxiv url: http://arxiv.org/abs/2604.15802v1
- Date: Fri, 17 Apr 2026 08:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.806356
- Title: CHOP: Chunkwise Context-Preserving Framework for RAG on Multi Documents
- Title(参考訳): CHOP: マルチドキュメントにおけるRAGのためのチャンクワイズコンテキスト保存フレームワーク
- Authors: Hyunseok Park, Jihyeon Kim, Jongeun Kim, Dongsik Yoon,
- Abstract要約: 大規模言語モデル(LLM)によるチャンク関係を反復的に評価するフレームワークであるCHOPを提案する。
CHOPはCNM-ExtractorとContinuity Decision Moduleという2つの重要なコンポーネントを統合している。
ベンチマークデータセットの実験では、CHOPは検索の混乱を緩和し、高品質な知識ベースを構築するためのスケーラブルなアプローチを提供する。
- 参考スコア(独自算出の注目度): 6.134883925217888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems lose retrieval accuracy when similar documents coexist in the vector database, causing unnecessary information, hallucinations, and factual errors. To alleviate this issue, we propose CHOP, a framework that iteratively evaluates chunk relevance with Large Language Models (LLMs) and progressively reconstructs documents by determining their association with specific topics or query types. CHOP integrates two key components: the CNM-Extractor, which generates compact per-chunk signatures capturing categories, key nouns, and model names, and the Continuity Decision Module, which preserves contextual coherence by deciding whether consecutive chunks belong to the same document flow. By prefixing each chunk with context-aware metadata, CHOP reduces semantic conflicts among similar documents and enhances retriever discrimination. Experiments on benchmark datasets show that CHOP alleviates retrieval confusion and provides a scalable approach for building high-quality knowledge bases, achieving a Top-1 Hit Rate of 90.77% and notable gains in ranking quality metrics.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、類似した文書がベクトルデータベースに共存すると検索精度が低下し、不要な情報、幻覚、事実エラーを引き起こす。
この問題を軽減するため,我々は,大規模言語モデル(LLM)とのチャンク関係を反復的に評価し,特定のトピックやクエリタイプとの関連性を決定することによって文書を段階的に再構築するフレームワークであるCHOPを提案する。
CHOPはCNM-ExtractorとContinuity Decision Moduleの2つの重要なコンポーネントを統合する。
各チャンクにコンテキスト対応メタデータをプレフィックスすることで、CHOPは類似したドキュメント間の意味的衝突を減らし、検索者の識別を強化する。
ベンチマークデータセットの実験では、CHOPは検索の混乱を緩和し、高品質な知識ベースを構築するためのスケーラブルなアプローチを提供する。
関連論文リスト
- MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。
インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。
AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文 参考訳(メタデータ) (2026-02-24T18:57:33Z) - Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation [22.803751188961865]
検索は類似性マッチングを超えて移動し、代わりに潜在コンポーネントを操作するべきだと我々は主張する。
我々は、無傷ユニットの階層を構築し、検索可能な高レベルノード組織を維持するxMemoryを提案する。
論文 参考訳(メタデータ) (2026-02-02T12:04:58Z) - LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding [37.12229829548839]
レイアウト対応動的RAGフレームワークであるLAD-RAGを提案する。
LAD-RAGは、レイアウト構造とページ間の依存関係をキャプチャするシンボリック文書グラフを構築する。
MMLongBench-Doc、LongDocURL、DUDE、MP-DocVQAの実験は、LAD-RAGが検索を改善し、トップkチューニングなしで平均90%以上の完全リコールを達成することを示した。
論文 参考訳(メタデータ) (2025-10-08T17:02:04Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。