論文の概要: Adaptive Chunking: Optimizing Chunking-Method Selection for RAG
- arxiv url: http://arxiv.org/abs/2603.25333v1
- Date: Thu, 26 Mar 2026 11:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.261902
- Title: Adaptive Chunking: Optimizing Chunking-Method Selection for RAG
- Title(参考訳): Adaptive Chunking: RAGのためのチャンキングメソッド選択の最適化
- Authors: Paulo Roberto de Moura Júnior, Jean Lelong, Annabelle Blangero,
- Abstract要約: 文書ごとに最適なチャンキング戦略を選択するフレームワークであるAdaptive Chunkingを紹介します。
法、技術、社会科学領域にまたがる多種多様なコーパスにおいて、我々の計量マージ適応法は、下流RAGの性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of Retrieval-Augmented Generation (RAG) is highly dependent on how documents are chunked, that is, segmented into smaller units for indexing and retrieval. Yet, commonly used "one-size-fits-all" approaches often fail to capture the nuanced structure and semantics of diverse texts. Despite its central role, chunking lacks a dedicated evaluation framework, making it difficult to assess and compare strategies independently of downstream performance. We challenge this paradigm by introducing Adaptive Chunking, a framework that selects the most suitable chunking strategy for each document based on a set of five novel intrinsic, document-based metrics: References Completeness (RC), Intrachunk Cohesion (ICC), Document Contextual Coherence (DCC), Block Integrity (BI), and Size Compliance (SC), which directly assess chunking quality across key dimensions. To support this framework, we also introduce two new chunkers, an LLM-regex splitter and a split-then-merge recursive splitter, alongside targeted post-processing techniques. On a diverse corpus spanning legal, technical, and social science domains, our metric-guided adaptive method significantly improves downstream RAG performance. Without changing models or prompts, our framework increases RAG outcomes, raising answers correctness to 72% (from 62-64%) and increasing the number of successfully answered questions by over 30% (65 vs. 49). These results demonstrate that adaptive, document-aware chunking, guided by a complementary suite of intrinsic metrics, offers a practical and effective path to more robust RAG systems. Code available at https://github.com/ekimetrics/adaptive-chunking.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)の有効性は、ドキュメントのチャンク方法、すなわちインデックス作成と検索のために小さなユニットに分割する方法に大きく依存する。
しかし、一般的に使われる「ワンサイズフィット・オール」アプローチは、様々なテキストのニュアンスな構造と意味を捉えるのに失敗することが多い。
その中心的な役割にもかかわらず、チャンキングには専用の評価フレームワークがなく、下流のパフォーマンスとは独立して戦略を評価し比較することが難しい。
参照完全性(RC)、イントラチャンク結合(ICC)、文書コンテキスト一貫性(DCC)、ブロック積分(BI)、サイズコンプライアンス(SC)の5つの新しい指標に基づいて、各文書に最適なチャンキング戦略を選択するフレームワークであるAdaptive Chunkingを導入することで、このパラダイムに挑戦する。
このフレームワークをサポートするために,LLM-regexスプリッタとsplit-then-merge Recursiveスプリッタという2つの新しいチャンカーも導入した。
法、技術、社会科学領域にまたがる多種多様なコーパスにおいて、我々の計量誘導適応法は、下流RAGの性能を著しく向上させる。
モデルやプロンプトを変更することなく、我々のフレームワークはRAGの結果を増やし、回答の正しさを72%(62-64%から)上げ、回答された質問の数を30%以上(65対49)増やしました。
これらの結果は、適応的で文書対応のチャンキングが、より堅牢なRAGシステムへの実践的で効果的な経路を提供することを示す。
コードはhttps://github.com/ekimetrics/adaptive-chunking.comで公開されている。
関連論文リスト
- A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity [0.8921166277011344]
そこで本研究では,文書チャンキング戦略の大規模・クロスドメインな評価手法を提案する。
本研究では, 5つの異なる埋め込みモデルを用いて, 6つの知識領域に対して36のセグメンテーション手法をベンチマークした。
検索性能は, 最先端評価器の適度値スコアを用いて評価し, 正規化DCG@5を主指標とした。
論文 参考訳(メタデータ) (2026-03-07T01:33:44Z) - Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。
インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。
AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文 参考訳(メタデータ) (2026-02-24T18:57:33Z) - Beyond Chunk-Then-Embed: A Comprehensive Taxonomy and Evaluation of Document Chunking Strategies for Information Retrieval [37.055995647350784]
本稿では,文書チャンキングにおける先行研究を再現し,既存の戦略を統一する体系的枠組みを提案する。
評価の結果,最適なチャンキング戦略はタスク依存であることがわかった。
論文 参考訳(メタデータ) (2026-02-19T00:27:15Z) - Bridging OLAP and RAG: A Multidimensional Approach to the Design of Corpus Partitioning [0.3437656066916039]
RAGコーパスのための多次元分割の設計を導くための概念的枠組みを提案する。
このフレームワークは階層的なルーティングと制御されたフォールバック戦略を自然にサポートし、不完全なメタデータが存在する場合でも検索が堅牢であることを保証する。
論文 参考訳(メタデータ) (2026-01-07T09:37:36Z) - SmartChunk Retrieval: Query-Aware Chunk Compression with Planning for Efficient Document RAG [41.16937860730275]
We present SmartChunk, a query-adaptive framework for efficient and robust long-document question answering (QA)。
SmartChunkでは、クエリ毎に最適なチャンク抽象化レベルを予測するプランナーと、要約を繰り返しない高レベルのチャンク埋め込みを生成する軽量圧縮モジュールを使用している。
ユーザがさまざまなドキュメントタイプやクエリスタイルに直面する現実世界のアプリケーションを反映するために、私たちは、SmartChunkを5つのQAベンチマークと1つのドメイン外のデータセットで評価しました。
論文 参考訳(メタデータ) (2025-12-17T01:21:44Z) - Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - Cluster-based Adaptive Retrieval: Dynamic Context Selection for RAG Applications [8.946586077722822]
クラスタベースのAdaptive Retrieval (CAR) は、順序付きクエリ文書類似度距離のクラスタリングパターンを分析して、最適な文書数を決定するアルゴリズムである。
CARは、常に最適な検索深度を選択し、最高TESスコアを達成し、固定されたトップkベースラインを全て上回る。
論文 参考訳(メタデータ) (2025-10-02T05:11:12Z) - A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。