論文の概要: Beyond Chunk-Then-Embed: A Comprehensive Taxonomy and Evaluation of Document Chunking Strategies for Information Retrieval
- arxiv url: http://arxiv.org/abs/2602.16974v1
- Date: Thu, 19 Feb 2026 00:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.532521
- Title: Beyond Chunk-Then-Embed: A Comprehensive Taxonomy and Evaluation of Document Chunking Strategies for Information Retrieval
- Title(参考訳): チャンクエンベッドを超えて:情報検索のための文書チャンク戦略の包括的分類と評価
- Authors: Yongjie Zhou, Shuai Wang, Bevan Koopman, Guido Zuccon,
- Abstract要約: 本稿では,文書チャンキングにおける先行研究を再現し,既存の戦略を統一する体系的枠組みを提案する。
評価の結果,最適なチャンキング戦略はタスク依存であることがわかった。
- 参考スコア(独自算出の注目度): 37.055995647350784
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Document chunking is a critical preprocessing step in dense retrieval systems, yet the design space of chunking strategies remains poorly understood. Recent research has proposed several concurrent approaches, including LLM-guided methods (e.g., DenseX and LumberChunker) and contextualized strategies(e.g., Late Chunking), which generate embeddings before segmentation to preserve contextual information. However, these methods emerged independently and were evaluated on benchmarks with minimal overlap, making direct comparisons difficult. This paper reproduces prior studies in document chunking and presents a systematic framework that unifies existing strategies along two key dimensions: (1) segmentation methods, including structure-based methods (fixed-size, sentence-based, and paragraph-based) as well as semantically-informed and LLM-guided methods; and (2) embedding paradigms, which determine the timing of chunking relative to embedding (pre-embedding chunking vs. contextualized chunking). Our reproduction evaluates these approaches in two distinct retrieval settings established in previous work: in-document retrieval (needle-in-a-haystack) and in-corpus retrieval (the standard information retrieval task). Our comprehensive evaluation reveals that optimal chunking strategies are task-dependent: simple structure-based methods outperform LLM-guided alternatives for in-corpus retrieval, while LumberChunker performs best for in-document retrieval. Contextualized chunking improves in-corpus effectiveness but degrades in-document retrieval. We also find that chunk size correlates moderately with in-document but weakly with in-corpus effectiveness, suggesting segmentation method differences are not purely driven by chunk size. Our code and evaluation benchmarks are publicly available at (Anonymoused).
- Abstract(参考訳): 文書チャンキングは、密集検索システムにおいて重要な前処理ステップであるが、チャンキング戦略の設計空間はいまだに理解されていない。
近年、LLM誘導法(例えばDenseXやLumberChunker)やコンテキスト情報保存のためのセグメンテーション前の埋め込みを生成するコンテキスト化された戦略(例えば、レイトチャンキング)など、いくつかの同時手法が提案されている。
しかし、これらの手法は独立して出現し、ベンチマークで最小のオーバーラップで評価され、直接比較が困難になる。
本稿では,文書チャンキングにおける先行研究を再現し,(1) 構造的手法(固定サイズ,文ベース,段落ベース)や意味的インフォームド手法,(2) 組込みのタイミングを決定する組込みパラダイムを含む,既存の戦略を2つの重要な側面に沿って統一する体系的枠組みを提案する。
本研究では,従来の文書検索 (needle-in-a-haystack) とコーパス検索 (in-corpus search) の2つの異なる検索条件でこれらの手法を評価する。
我々の総合的な評価では、最適チャンキング戦略はタスク依存であり、単純な構造ベース手法は、企業内検索のLLM誘導手法よりも優れており、一方、LumberChunkerはドキュメント内検索に最適である。
コンテキスト化されたチャンキングは、コーパスの有効性を改善するが、ドキュメント内での検索は低下する。
また,チャンクサイズは文書内では適度に相関するが,コーパス内での有効性は弱く,分割法の違いはチャンクサイズによって純粋に引き起こされるものではないことを示唆している。
私たちのコードと評価ベンチマークは(匿名で)公開されています。
関連論文リスト
- LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - HiPS: Hierarchical PDF Segmentation of Textbooks [2.2903728931592395]
法律教科書には、法規範の解釈と適用に不可欠な階層的な知識が含まれている。
本稿では,オープンソース構造解析ツールに依存するTable of Contents(TOC)に基づく手法とアプローチについて検討する。
解析精度を向上させるため、OCRベースのタイトル検出、XML由来の機能、コンテキストテキスト機能などの前処理戦略を取り入れた。
論文 参考訳(メタデータ) (2025-08-31T15:40:43Z) - Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings [25.966475857117175]
本研究では,文書ワイドコンテキストを利用した検索モデルの評価を行うためのベンチマークであるConTEBを紹介する。
以上の結果から,最先端の埋め込みモデルは,コンテキストが必要な検索シナリオで苦労していることがわかった。
InSeNTは、遅延チャンキングプーリングと組み合わせることで文脈表現学習が促進される、新しい対照的なポストトレーニング手法である。
論文 参考訳(メタデータ) (2025-05-30T16:43:28Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Enhanced Retrieval of Long Documents: Leveraging Fine-Grained Block Representations with Large Language Models [24.02950598944251]
文書の関連性評価の精度を高めることを目的とした,新しい,きめ細かいアプローチを提案する。
提案手法はまず,長い文書をブロックに分割し,それぞれを LLM を用いて埋め込む。
重み付け和法により,クエリブロック関連度スコアを集約し,ドキュメント全体のクエリに対する総合的なスコアを得る。
論文 参考訳(メタデータ) (2025-01-28T16:03:52Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。