論文の概要: Rethinking Chunk Size For Long-Document Retrieval: A Multi-Dataset Analysis
- arxiv url: http://arxiv.org/abs/2505.21700v2
- Date: Thu, 29 May 2025 09:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.769439
- Title: Rethinking Chunk Size For Long-Document Retrieval: A Multi-Dataset Analysis
- Title(参考訳): 文書検索のためのチャンクサイズ再考:マルチデータセット分析
- Authors: Sinchana Ramakanth Bhat, Max Rudat, Jannis Spiekermann, Nicolas Flores-Herr,
- Abstract要約: 複数の埋め込みモデルを用いた定サイズチャンキング戦略の評価と検索性能への影響について検討した。
短文データセットと長文データセットの両方で行った実験により,チャンクサイズが検索効率において重要な役割を担っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chunking is a crucial preprocessing step in retrieval-augmented generation (RAG) systems, significantly impacting retrieval effectiveness across diverse datasets. In this study, we systematically evaluate fixed-size chunking strategies and their influence on retrieval performance using multiple embedding models. Our experiments, conducted on both short-form and long-form datasets, reveal that chunk size plays a critical role in retrieval effectiveness -- smaller chunks (64-128 tokens) are optimal for datasets with concise, fact-based answers, whereas larger chunks (512-1024 tokens) improve retrieval in datasets requiring broader contextual understanding. We also analyze the impact of chunking on different embedding models, finding that they exhibit distinct chunking sensitivities. While models like Stella benefit from larger chunks, leveraging global context for long-range retrieval, Snowflake performs better with smaller chunks, excelling at fine-grained, entity-based matching. Our results underscore the trade-offs between chunk size, embedding models, and dataset characteristics, emphasizing the need for improved chunk quality measures, and more comprehensive datasets to advance chunk-based retrieval in long-document Information Retrieval (IR).
- Abstract(参考訳): チャンキングは、検索強化生成(RAG)システムにおいて重要な前処理ステップであり、多様なデータセット間の検索効率に大きな影響を及ぼす。
本研究では,固定サイズのチャンキング戦略と,複数の埋め込みモデルを用いた検索性能への影響を系統的に評価する。
我々の実験は、短文と長文のデータセットの両方で実施され、チャンクサイズが検索効率において重要な役割を担っていることを明らかにしている。より小さなチャンク(64-128トークン)は、簡潔で事実に基づく回答を持つデータセットに最適であるのに対して、より大きなチャンク(512-1024トークン)は、より広い文脈理解を必要とするデータセットの検索を改善する。
また, チャンキングが異なる埋め込みモデルに与える影響を解析した結果, チャンキング感度が異なることがわかった。
Stellaのようなモデルは、長距離検索にグローバルコンテキストを活用することで大きなチャンクの恩恵を受ける一方で、Snowflakeはより小さなチャンクでより優れたパフォーマンスを実現し、きめ細かいエンティティベースのマッチングに優れています。
その結果,チャンクサイズ,埋め込みモデル,データセット特性のトレードオフを浮き彫りにして,チャンク品質測定の改善の必要性を強調し,長期文書情報検索(IR)におけるチャンクベース検索を推し進めるための包括的データセットを構築した。
関連論文リスト
- Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。
実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。
LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Datasets, Documents, and Repetitions: The Practicalities of Unequal Data Quality [67.67387254989018]
各種計算予算およびデータフィルタリングと復号化によって生成された複数の事前学習データセットにおけるモデル性能について検討する。
トレーニングレシピに適切な修正を加えると、最大10エポックのアグレッシブフィルタデータセットを繰り返すことで、複数の計算予算のオーダーで1エポックの10倍のスーパーセットでのトレーニングを上回ります。
論文 参考訳(メタデータ) (2025-03-10T21:51:17Z) - Investigating the Scalability of Approximate Sparse Retrieval Algorithms to Massive Datasets [8.1990111961557]
大規模データセット上での最先端検索アルゴリズムの挙動について検討する。
我々は,最近提案した地震探査と高密度検索に適応したグラフベースソリューションを比較し,比較した。
我々は,MsMarco-v2から138万パスのSplade埋め込みを広範囲に評価し,インデックス作成時間その他の効率および有効性について報告する。
論文 参考訳(メタデータ) (2025-01-20T17:59:21Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Improving Retrieval-Augmented Large Language Models via Data Importance
Learning [27.97176983906107]
本稿では,検索したデータポイントの重要度を評価するためのマルチ線形拡張に基づくアルゴリズムを提案する。
マルチ線形拡張に基づく重み付けは, 実際に効率的に計算可能であることを示す。
論文 参考訳(メタデータ) (2023-07-06T14:44:07Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。