論文の概要: A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity
- arxiv url: http://arxiv.org/abs/2603.06976v1
- Date: Sat, 07 Mar 2026 01:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.514792
- Title: A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity
- Title(参考訳): 文書チャンキング戦略と埋め込み感度に関する体系的研究
- Authors: Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn,
- Abstract要約: そこで本研究では,文書チャンキング戦略の大規模・クロスドメインな評価手法を提案する。
本研究では, 5つの異なる埋め込みモデルを用いて, 6つの知識領域に対して36のセグメンテーション手法をベンチマークした。
検索性能は, 最先端評価器の適度値スコアを用いて評価し, 正規化DCG@5を主指標とした。
- 参考スコア(独自算出の注目度): 0.8921166277011344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first large-scale, cross-domain evaluation of document chunking strategies for dense retrieval, addressing a critical but underexplored aspect of retrieval-augmented systems. In our study, 36 segmentation methods spanning fixed-size, semantic, structure-aware, hierarchical, adaptive, and LLM-assisted approaches are benchmarked across six diverse knowledge domains using five different embedding models. Retrieval performance is assessed using graded relevance scores from a state-of-the-art LLM evaluator, with Normalised DCG@5 as the primary metric (complemented by Hit@5 and MRR). Our experiments show that content-aware chunking significantly improves retrieval effectiveness over naive fixed-length splitting. The top-performing strategy, Paragraph Group Chunking, achieved the highest overall accuracy (mean nDCG@5~0.459) and substantially better top-rank hit rates (Precision@1~24%, Hit@5~59%). In contrast, simple fixed-size character chunking as baselines performed poorly (nDCG@5 < 0.244, Precision@1~2-3%). We observe pronounced domain-specific differences: dynamic token sizing is strongest in biology, physics and health, while paragraph grouping is strongest in legal and maths. Larger embedding models yield higher absolute scores but remain sensitive to suboptimal segmentation, indicating that better chunking and large embeddings provide complementary benefits. In addition to accuracy gains, we quantify the efficiency trade-offs of advanced chunking. Producing more, smaller chunks can increase index size and latency. Consequently, we identify methods (like dynamic chunking) that approach an optimal balance of effectiveness and efficiency. These findings establish chunking as a vital lever for improving retrieval performance and reliability.
- Abstract(参考訳): 本稿では,検索集約システムの重要かつ未探索な側面に対処するため,文書チャンキング戦略の大規模かつクロスドメインな評価手法を提案する。
本研究は, 固定サイズ, 意味, 構造認識, 階層型, 適応型, LLM支援のアプローチを, 5つの異なる埋め込みモデルを用いて, 6つの知識領域にまたがる36のセグメンテーション手法をベンチマークした。
検索性能は、最先端のLCM評価器からの評価値を用いて評価され、正規化DCG@5が主指標となる(Hit@5とMRRが補足)。
実験により,コンテンツ認識型チャンキングは,有意な固定長分割よりも検索効率を著しく向上させることが示された。
トップパフォーマンス戦略であるParagraph Group Chunkingは、総合的精度(平均 nDCG@5~0.459)と、かなり優れたトップランクヒット率(Precision@1~24%、Hit@5~59%)を達成した。
対照的に、ベースラインとしての単純な固定サイズの文字チャンキングは不十分であった(nDCG@5 < 0.244, Precision@1~2-3%)。
動的トークンサイズは生物学、物理学、健康において最強であり、段落分類は法学と数学において最強である。
より大きな埋め込みモデルはより高い絶対スコアを得るが、最適下分割に敏感であり、より優れたチャンキングと大きな埋め込みが相補的な利点をもたらすことを示している。
精度の向上に加えて、高度なチャンキングの効率トレードオフを定量化する。
より小さなチャンクを生成すれば、インデックスのサイズとレイテンシが向上する。
その結果,有効性と効率の最適バランスにアプローチする手法(動的チャンキングなど)を同定した。
これらの結果から,チャンキングは検索性能と信頼性を向上させる重要なレバーとして確立された。
関連論文リスト
- Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - A Fuzzy Logic-Based Framework for Explainable Machine Learning in Big Data Analytics [0.0]
本稿では,2型ファジィ集合,粒度計算,クラスタリングを組み合わせて,ビッグデータ環境における説明可能性と公平性を高める新しいフレームワークを提案する。
UCI Air Qualityデータセットに適用した場合、このフレームワークはノイズの多いセンサデータの不確実性を効果的に管理し、言語規則を作成し、シルエットスコアとエントロピーを用いて公平さを評価する。
論文 参考訳(メタデータ) (2025-09-29T18:02:31Z) - Advanced Multi-Architecture Deep Learning Framework for BIRADS-Based Mammographic Image Retrieval: Comprehensive Performance Analysis with Super-Ensemble Optimization [0.0]
マンモグラフィ画像検索システムでは、5つの異なるクラスにまたがる正確なBIRADSカテゴリマッチングが必要である。
現在の医用画像検索研究は方法論的限界に悩まされている。
論文 参考訳(メタデータ) (2025-08-06T18:05:18Z) - A New HOPE: Domain-agnostic Automatic Evaluation of Text Chunking [44.47350338664039]
文書チャンキングは検索強化世代(RAG)に根本的に影響する
現在、さまざまなチャンキングメソッドの影響を分析するためのフレームワークはありません。
本稿では,チャンキングプロセスの本質的特徴を3段階に定義する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-04T16:22:27Z) - Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection [65.96556073745197]
DiverSified File selection algorithm (DiSF) は特徴空間における最も非相関なテキストファイルを選択するために提案される。
DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内でのデータ事前トレーニングを上回っている。
論文 参考訳(メタデータ) (2025-04-29T11:13:18Z) - DeeperImpact: Optimizing Sparse Learned Index Structures [4.92919246305126]
我々は、SPLADEの最も効果的なバージョンと有効性ギャップを狭めることに重点を置いている。
その結果,SPLADEの最も有効なバージョンとの有効性ギャップは著しく狭められた。
論文 参考訳(メタデータ) (2024-05-27T12:08:59Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - SASL: Saliency-Adaptive Sparsity Learning for Neural Network
Acceleration [20.92912642901645]
そこで本稿では、さらなる最適化のために、SASL(Saliency-Adaptive Sparsity Learning)アプローチを提案する。
ResNet-50 の 49.7% の FLOP を 0.39% のトップ-1 と 0.05% のトップ-5 の精度で削減できる。
論文 参考訳(メタデータ) (2020-03-12T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。