論文の概要: A Systematic Analysis of Chunking Strategies for Reliable Question Answering
- arxiv url: http://arxiv.org/abs/2601.14123v1
- Date: Tue, 20 Jan 2026 16:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.410168
- Title: A Systematic Analysis of Chunking Strategies for Reliable Question Answering
- Title(参考訳): 信頼性質問応答のためのチャンキング戦略の体系的分析
- Authors: Sofia Bennani, Charles Moslonka,
- Abstract要約: 本研究では,文書のチャンキング選択が検索・拡張生成システムの信頼性に与える影響について検討する。
我々は、SPLADE検索とMistral-8Bジェネレータという、標準的な産業装置を使用している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how document chunking choices impact the reliability of Retrieval-Augmented Generation (RAG) systems in industry. While practice often relies on heuristics, our end-to-end evaluation on Natural Questions systematically varies chunking method (token, sentence, semantic, code), chunk size, overlap, and context length. We use a standard industrial setup: SPLADE retrieval and a Mistral-8B generator. We derive actionable lessons for cost-efficient deployment: (i) overlap provides no measurable benefit and increases indexing cost; (ii) sentence chunking is the most cost-effective method, matching semantic chunking up to ~5k tokens; (iii) a "context cliff" reduces quality beyond ~2.5k tokens; and (iv) optimal context depends on the goal (semantic quality peaks at small contexts; exact match at larger ones).
- Abstract(参考訳): 本研究では,文書チャンキングの選択が産業における検索・拡張生成システム(RAG)の信頼性に与える影響について検討する。
実践はしばしばヒューリスティックスに頼っているが、我々のNatural Questionsに対するエンドツーエンド評価は、系統的にチャンキングメソッド(トークン、文、セマンティック、コード)、チャンクサイズ、重複、コンテキストの長さを変える。
我々は、SPLADE検索とMistral-8Bジェネレータという、標準的な産業装置を使用している。
コスト効率のよいデプロイメントのための実行可能な教訓を導き出します。
i) 重複は、測定可能な利益を与えず、索引付けコストを増大させる。
(ii)文チャンキングは最もコスト効率のよい方法であり、セマンティックチャンキングを5kのトークンまでマッチングする。
(三)「コンテクスト崖」は、約2.5kのトークンを超える品質を低下させ、
(4)最適コンテキストは、ゴール(小さなコンテキストでのセマンティックな品質ピーク、より大きなコンテキストでの正確なマッチング)に依存する。
関連論文リスト
- Context Attribution with Multi-Armed Bandit Optimization [11.715006981206844]
本稿では,コンテキスト属性をCMAB(Multi-armed bandit)問題として定式化する新しいフレームワークを提案する。
我々は、限られたクエリ予算の下で、指数的に大きなコンテキストサブセットの空間を効率的に探索するために、 Combinatorial Thompson Sampling (CTS) を採用している。
本手法は,正規化トークンの確率に基づいて報酬関数を定義し,セグメントのサブセットが元のモデル応答をどれだけうまくサポートしているかを抽出する。
論文 参考訳(メタデータ) (2025-06-24T19:47:27Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - SAGE: A Framework of Precise Retrieval for RAG [9.889395372896153]
Retrieval-augmented Generation (RAG) は,質問応答タスクの遂行に有意義な能力を示した。
RAGメソッドはセマンティクスを考慮せずにコーパスをセグメントし、関連するコンテキストを見つけるのが困難になる。
これらの制限を克服するために、RAGフレームワーク(SAGE)を導入します。
論文 参考訳(メタデータ) (2025-03-03T16:25:58Z) - Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models [0.6827423171182154]
Retrieval-Augmented Generation (RAG) システムは、技術的領域に適用した場合、大きなパフォーマンスギャップに直面します。
ドメイン固有のRAG性能を最適化するために、粒度評価指標と合成データ生成を組み合わせたフレームワークを提案する。
10トークン未満の小さなチャンクは、精度を31-42%向上させます。
論文 参考訳(メタデータ) (2025-02-21T06:38:57Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [74.14816777318033]
Token-lEvel Routing(CITER)との協調推論は、小規模および大規模言語モデルの効率的な協調を可能にするフレームワークである。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Is Semantic Chunking Worth the Computational Cost? [0.0]
本研究は,3つの共通検索タスクを用いた意味的チャンキングの有効性を体系的に評価する。
その結果,セマンティックチャンキングに伴う計算コストは,一貫した性能向上によって正当化されないことがわかった。
論文 参考訳(メタデータ) (2024-10-16T21:53:48Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - What Makes Good In-Context Examples for GPT-$3$? [101.99751777056314]
GPT-$3$はNLPタスクの広い範囲でその優れた性能のために多くの注目を集めています。
その成功にもかかわらず、我々はGPT-$3$の実証結果が文脈内例の選択に大きく依存していることを発見した。
本研究では,文脈内事例を適切に選択するためのより効果的な戦略が存在するかを検討する。
論文 参考訳(メタデータ) (2021-01-17T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。