論文の概要: REFRAG: Rethinking RAG based Decoding
- arxiv url: http://arxiv.org/abs/2509.01092v1
- Date: Mon, 01 Sep 2025 03:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.537788
- Title: REFRAG: Rethinking RAG based Decoding
- Title(参考訳): REFRAG: RAGベースのデコードを再考
- Authors: Xiaoqiang Lin, Aritra Ghosh, Bryan Kian Hsiang Low, Anshumali Shrivastava, Vijai Mohan,
- Abstract要約: REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
- 参考スコア(独自算出の注目度): 67.4862300145604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in leveraging extensive external knowledge to enhance responses in multi-turn and agentic applications, such as retrieval-augmented generation (RAG). However, processing long-context inputs introduces significant system latency and demands substantial memory for the key-value cache, resulting in reduced throughput and a fundamental trade-off between knowledge enrichment and system efficiency. While minimizing latency for long-context inputs is a primary objective for LLMs, we contend that RAG require specialized consideration. In RAG, much of the LLM context consists of concatenated passages from retrieval, with only a small subset directly relevant to the query. These passages often exhibit low semantic similarity due to diversity or deduplication during re-ranking, leading to block-diagonal attention patterns that differ from those in standard LLM generation tasks. Based on this observation, we argue that most computations over the RAG context during decoding are unnecessary and can be eliminated with minimal impact on performance. To this end, we propose REFRAG, an efficient decoding framework that compresses, senses, and expands to improve latency in RAG applications. By exploiting the sparsity structure, we demonstrate a 30.85 the time-to-first-token acceleration (3.75 improvement to previous work) without loss in perplexity. In addition, our optimization framework for large context enables REFRAG to extend the context size of LLMs by 16. We provide rigorous validation of REFRAG across diverse long-context tasks, including RAG, multi-turn conversations, and long document summarization, spanning a wide range of datasets. Experimental results confirm that REFRAG delivers substantial speedup with no loss in accuracy compared to LLaMA models and other state-of-the-art baselines across various context sizes.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検索強化生成(RAG)のようなマルチターンおよびエージェントアプリケーションにおける応答を高めるために、広範囲な外部知識を活用する際、顕著な能力を示した。
しかし、長いコンテキストの入力を処理すると、システム遅延が大きくなり、キーバリューキャッシュにかなりのメモリを必要とするため、スループットが低下し、知識の豊かさとシステム効率の基本的なトレードオフが生じる。
長文入力のレイテンシを最小化することがLLMの主要な目的であるが、RAGには特別な考慮が必要であると我々は主張する。
RAGでは、LLMコンテキストの大部分は検索からの連結されたパスで構成されており、クエリに直接関係するサブセットはごくわずかである。
これらの節は、再ランクの際の多様性や重複による意味的類似度が低く、標準LLM生成タスクとは異なるブロック対角の注意パターンをもたらす。
この観測から, 復号化時のRAGコンテキスト上の計算のほとんどは不要であり, 性能への影響を最小限に抑えることができると論じる。
そこで本研究では,RAGアプリケーションの遅延を圧縮し,知覚し,拡張する効率的な復号化フレームワークREFRAGを提案する。
空間構造を利用して, パープレキシティを損なうことなく, 30.85 のタイム・ツー・ファースト・トーケン・アクセラレーション (3.75 の改善) を実演する。
さらに,大きなコンテキストに対する最適化フレームワークにより,REFRAGはLLMのコンテキストサイズを16に拡張できる。
我々は、RAG、マルチターン会話、および広範囲のデータセットにまたがる長い文書要約を含む、様々な長文タスクにわたるREFRAGの厳密な検証を提供する。
実験結果から,REFRAGはLLaMAモデルや各種コンテキストサイズにおける最先端のベースラインと比較して精度を低下させることなく,かなりのスピードアップを実現することを確認した。
関連論文リスト
- RAPID: Long-Context Inference with Retrieval-Augmented Speculative Decoding [7.785459677641105]
LLM(Long-context Large Language Model)は、従来の検索拡張世代(RAG)に代わる有望な代替手段を提供する。
本稿ではRAPID(Retrieval-Augmented Speculative Decoding)を提案する。
提案手法は,計算効率を維持しつつ,同一スケールあるいはそれ以上のLLMをRAGドラフトとして機能させる,新たなパラダイムを実現する。
論文 参考訳(メタデータ) (2025-02-27T17:59:36Z) - Does RAG Really Perform Bad For Long-Context Processing? [15.889864680212147]
RetroLMは長文処理のための新しいフレームワークである。
従来の方法とは異なり、RetroLMはKVレベルの検索拡張を採用している。
この枠組みに基づいて,臨界ページの正確な検索を行うための特殊検索器を開発した。
論文 参考訳(メタデータ) (2025-02-17T05:02:25Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。
本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文 参考訳(メタデータ) (2024-12-20T06:58:32Z) - MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。
我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。
MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。