論文の概要: Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems
- arxiv url: http://arxiv.org/abs/2604.04936v1
- Date: Thu, 08 Jan 2026 06:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.354632
- Title: Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems
- Title(参考訳): W-RAC(Web Retrieval-Aware Chunking)による高速かつ費用対効果の高い検索生成システム
- Authors: Uday Allu, Sonu Kedia, Tanmay Odapally, Biddwan Ahmed,
- Abstract要約: Web Retrieval-Aware Chunking (W-RAC)は、Webベースのドキュメントに特化して設計された、コスト効率の高いチャンキングフレームワークである。
W-RACは、解析されたWebコンテンツを構造化されたID対応ユニットとして表現することで、セマンティックチャンク計画からのテキスト抽出を分離する。
これによりトークンの使用が大幅に減少し、幻覚リスクを排除し、システムオブザーバビリティが向上する。
- 参考スコア(独自算出の注目度): 0.9332987715848714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems critically depend on effective document chunking strategies to balance retrieval quality, latency, and operational cost. Traditional chunking approaches, such as fixed-size, rule-based, or fully agentic chunking, often suffer from high token consumption, redundant text generation, limited scalability, and poor debuggability, especially for large-scale web content ingestion. In this paper, we propose Web Retrieval-Aware Chunking (W-RAC), a novel, cost-efficient chunking framework designed specifically for web-based documents. W-RAC decouples text extraction from semantic chunk planning by representing parsed web content as structured, ID-addressable units and leveraging large language models (LLMs) only for retrieval-aware grouping decisions rather than text generation. This significantly reduces token usage, eliminates hallucination risks, and improves system observability.Experimental analysis and architectural comparison demonstrate that W-RAC achieves comparable or better retrieval performance than traditional chunking approaches while reducing chunking-related LLM costs by an order of magnitude.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、検索品質、レイテンシ、運用コストのバランスをとるための効果的な文書チャンキング戦略に依存している。
固定サイズ、ルールベース、フルエージェントのチャンキングといった従来のチャンキングアプローチは、特に大規模なWebコンテンツの取り込みにおいて、高いトークン消費、冗長なテキスト生成、限られたスケーラビリティ、デバッグ性に悩まされることが多い。
本稿では,Webベースの文書に特化して設計された,新しい費用効率の高いチャンキングフレームワークであるWeb Retrieval-Aware Chunking (W-RAC)を提案する。
W-RACは、構文解析されたWebコンテンツを構造化されたID対応ユニットとして表現し、テキスト生成ではなく、検索に意識したグループ決定にのみ大きな言語モデル(LLM)を活用することによって、セマンティックチャンク計画からテキスト抽出を分離する。
これによりトークン使用量を大幅に削減し,幻覚リスクを排除し,システムの可観測性を向上させるとともに,W-RACがチャンキング関連LCMコストを桁違いに削減しつつ,従来のチャンキング手法と同等あるいは優れた検索性能を実現することを示す。
関連論文リスト
- AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis [11.689256498133446]
埋め込みから構造化アノテーションへ移行する新しい検索パラダイムであるAnnoRetrieveを提案する。
提案システムは,高コストなベクトル比較を,自動生成スキーマよりも軽量な構造化クエリに置き換える。
AnoRetrieveは、インテリジェントな構造化を通じて、コスト効率、正確、スケーラブルなドキュメント分析のための新しいパラダイムを確立している。
論文 参考訳(メタデータ) (2026-04-03T03:34:19Z) - Cost-Efficient RAG for Entity Matching with LLMs: A Blocking-based Exploration [14.88759517020146]
既存のRAGパイプラインは、大規模なエンティティマッチングに適用した場合、かなりの検索と生成オーバーヘッドを発生させる。
本稿では,CE-RAG4EMを導入する。CE-RAG4EMはコスト効率の高いRAGアーキテクチャで,ブロッキングベースのバッチ検索と生成による計算を削減できる。
論文 参考訳(メタデータ) (2026-02-05T14:33:00Z) - SmartChunk Retrieval: Query-Aware Chunk Compression with Planning for Efficient Document RAG [41.16937860730275]
We present SmartChunk, a query-adaptive framework for efficient and robust long-document question answering (QA)。
SmartChunkでは、クエリ毎に最適なチャンク抽象化レベルを予測するプランナーと、要約を繰り返しない高レベルのチャンク埋め込みを生成する軽量圧縮モジュールを使用している。
ユーザがさまざまなドキュメントタイプやクエリスタイルに直面する現実世界のアプリケーションを反映するために、私たちは、SmartChunkを5つのQAベンチマークと1つのドメイン外のデータセットで評価しました。
論文 参考訳(メタデータ) (2025-12-17T01:21:44Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - Is Semantic Chunking Worth the Computational Cost? [0.0]
本研究は,3つの共通検索タスクを用いた意味的チャンキングの有効性を体系的に評価する。
その結果,セマンティックチャンキングに伴う計算コストは,一貫した性能向上によって正当化されないことがわかった。
論文 参考訳(メタデータ) (2024-10-16T21:53:48Z) - Grounding Language Model with Chunking-Free In-Context Retrieval [27.316315081648572]
本稿では,新しいチャンキングフリー・インコンテキスト(CFIC)検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T07:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。