論文の概要: Query-Adaptive Semantic Chunking for Retrieval-Augmented Generation: A Dynamic Strategy with Contextual Window Expansion
- arxiv url: http://arxiv.org/abs/2605.22834v2
- Date: Tue, 26 May 2026 05:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.931151
- Title: Query-Adaptive Semantic Chunking for Retrieval-Augmented Generation: A Dynamic Strategy with Contextual Window Expansion
- Title(参考訳): Retrieval-Augmented Generationのためのクエリ適応セマンティックチャンキング:コンテキストウィンドウ拡張を用いた動的戦略
- Authors: Mudit Rastogi,
- Abstract要約: 本稿では,クエリを3つのメカニズムを通じてセグメンテーションに統合することにより,チャンクを動的に構築するクエリ適応セマンティックチャンキング(QASC)を提案する。
QASCのF1スコアは0.85で、固定チャンクよりも18-27%、意味論的およびエージェント的代替よりも8-12%向上している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems depend critically on document chunking quality for retrieving relevant context. Fixed chunking segments documents into uniform units irrespective of semantics or user intent, producing a precision-recall trade-off unresolvable by tuning chunk size alone. Semantic and agentic methods partially address these limitations but do not integrate user queries at the chunking stage. We present Query-Adaptive Semantic Chunking (QASC), which dynamically constructs chunks by integrating queries into segmentation through three mechanisms: cosine similarity scoring between sentence and query embeddings to identify seed sentences, contextual window expansion around seeds to preserve coherence, and chunk-level score aggregation to ensure holistic relevance. We evaluate QASC on 100 technical documents across 200 queries spanning four types, comparing against fixed chunking at five granularities, recursive splitting, semantic chunking, and agentic chunking. QASC achieves an F1-score of 0.85, a relative improvement of 18-27% over fixed chunking and 8-12% over semantic and agentic alternatives. Ablation studies confirm each component contributes meaningfully. Human evaluation by three annotators (Cohen kappa = 0.82) corroborates that QASC produces more relevant and coherent chunks than existing methods.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、関連するコンテキストを検索するための文書のチャンキング品質に極めて依存する。
固定されたチャンクセグメントは、意味論やユーザ意図に関わらず、文書を統一単位に分割し、チャンクサイズの調整だけでは解決不可能な正確なリコールトレードオフを生成する。
意味的およびエージェント的メソッドは、これらの制限に部分的に対処するが、チャンキング段階でユーザークエリを統合することはない。
本稿では,クエリをセグメンテーションに統合することでチャンクを動的に構築するQASC(Query-Adaptive Semantic Chunking)を提案する。
4種類のクエリにまたがる100のテクニカルドキュメントに対して,QASCを評価し,5つの粒度の固定チャンキング,再帰スプリット,セマンティックチャンキング,エージェントチャンキングを比較した。
QASCのF1スコアは0.85で、固定チャンクよりも18-27%、意味論的およびエージェント的代替よりも8-12%向上している。
アブレーション研究は、各成分が有意義に寄与することを確認する。
3つのアノテーション(Cohen kappa = 0.82)による人間の評価は、QASCが既存の方法よりも関連性が高く一貫性のあるチャンクを生成することを裏付けている。
関連論文リスト
- Semantic Entanglement in Vector-Based Retrieval: A Formal Framework and Context-Conditioned Disentanglement Pipeline for Agentic RAG Systems [0.0]
埋め込み空間における交叉重なりのモデル相対尺度として意味的絡み合いを定式化する。
埋め込みに先立って文書を再構成する4段階の事前処理フレームワークであるセマンティック・ディスタングルメント・パイプライン(SDP)を紹介した。
約25のサブドメインにわたる2,000以上のドキュメントからなる実世界の企業医療知識ベースでSDPを評価した。
論文 参考訳(メタデータ) (2026-04-20T00:24:34Z) - CHOP: Chunkwise Context-Preserving Framework for RAG on Multi Documents [6.134883925217888]
大規模言語モデル(LLM)によるチャンク関係を反復的に評価するフレームワークであるCHOPを提案する。
CHOPはCNM-ExtractorとContinuity Decision Moduleという2つの重要なコンポーネントを統合している。
ベンチマークデータセットの実験では、CHOPは検索の混乱を緩和し、高品質な知識ベースを構築するためのスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-17T08:05:17Z) - Adaptive Chunking: Optimizing Chunking-Method Selection for RAG [0.0]
文書ごとに最適なチャンキング戦略を選択するフレームワークであるAdaptive Chunkingを紹介します。
法、技術、社会科学領域にまたがる多種多様なコーパスにおいて、我々の計量マージ適応法は、下流RAGの性能を著しく向上させる。
論文 参考訳(メタデータ) (2026-03-26T11:20:52Z) - Cross-Document Topic-Aligned Chunking for Retrieval-Augmented Generation [0.0]
Cross-Document Topic-Alignedチャンキングは、コーパスレベルで知識を再構築する。
まず、文書間でトピックを特定し、各トピックにセグメントをマップし、それらを統一されたチャンクに合成する。
論文 参考訳(メタデータ) (2025-11-08T11:45:45Z) - Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Is Semantic Chunking Worth the Computational Cost? [0.0]
本研究は,3つの共通検索タスクを用いた意味的チャンキングの有効性を体系的に評価する。
その結果,セマンティックチャンキングに伴う計算コストは,一貫した性能向上によって正当化されないことがわかった。
論文 参考訳(メタデータ) (2024-10-16T21:53:48Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。