論文の概要: HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse
- arxiv url: http://arxiv.org/abs/2504.02921v1
- Date: Thu, 03 Apr 2025 17:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:39.367465
- Title: HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse
- Title(参考訳): HyperRAG:リランカKVキャッシュ再利用による検索強化世代における品質効率トレードオフの強化
- Authors: Yuwei An, Yihua Cheng, Seo Jin Park, Junchen Jiang,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の性能向上のための強力なパラダイムとして登場した。
RAGパイプラインの品質と効率のトレードオフを最適化するシステムであるHyperRAGを提案する。
我々は、HyperRAGがデコーダのみのリランカで2~3倍のスループット向上を実現し、従来のRAGサービスと比較して下流のパフォーマンス向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 7.521340060861743
- License:
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing the performance of large language models (LLMs) by integrating external knowledge into the generation process. A key component of RAG pipelines is the reranker, which selects the most relevant documents from a pool of retrieved candidates and significantly improves the quality of the generated responses. While rerankers refine the selection of retrieved documents in RAG pipelines, they introduce computational challenges that hinder high throughput and low latency. To address this problem, we propose HyperRAG, a system that optimizes the trade-off between quality and efficiency in RAG pipelines by leveraging KV-cache reuse for efficient reranker inference. By reusing document-side KV-cache, HyperRAG achieves both high-quality generation and system-level efficiency. To fully realize the benefits of KV-cache reuse, HyperRAG incorporates a range of system-level optimizations designed to enhance efficiency and scalability. Experiments show that HyperRAG achieves a 2 - 3 throughput improvement with decoder-only rerankers while also delivering higher downstream performance compared with traditional RAG service.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、外部知識を生成プロセスに統合することにより、大規模言語モデル(LLM)の性能を向上させるための強力なパラダイムとして登場した。
RAGパイプラインの重要なコンポーネントは、検索された候補のプールから最も関連性の高いドキュメントを選択し、生成されたレスポンスの品質を大幅に改善する、リランカである。
リランカは、RAGパイプラインで取得したドキュメントの選択を洗練する一方で、高いスループットと低レイテンシを阻害する計算上の課題を導入している。
この問題に対処するため,我々は,KV-cacheの再利用を有効活用し,RAGパイプラインの品質と効率のトレードオフを最適化するシステムHyperRAGを提案する。
ドキュメントサイドのKV-cacheを再利用することで、HyperRAGは高品質な生成とシステムレベルの効率の両方を達成する。
KV-cacheの再利用の利点をフルに実現するため、HyperRAGは効率性とスケーラビリティを向上させるように設計されたシステムレベルの最適化を多種多様に取り入れている。
実験によると、HyperRAGはデコーダのみのリランカで2~3スループットの改善を実現し、従来のRAGサービスと比較して下流のパフォーマンスも向上している。
関連論文リスト
- RoseRAG: Robust Retrieval-augmented Generation with Small-scale LLMs via Margin-aware Preference Optimization [53.63439735067081]
大規模言語モデル(LLM)は目覚ましい性能を達成したが、高い計算コストとレイテンシに直面している。
Retrieval-augmented Generation (RAG) は、外部知識を統合するのに役立つが、不完全な検索は、SLMを誤解させるノイズを引き起こす可能性がある。
我々は、Margin-aware Preference Optimizationを通じて、SLMのための堅牢なRAGフレームワークであるRoseRAGを提案する。
論文 参考訳(メタデータ) (2025-02-16T04:56:53Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - RAG-Reward: Optimizing RAG with Reward Modeling and RLHF [8.911260109659489]
Retrieval-augmented Generation (RAG)は、関連知識と最新の知識でLarge Language Models (LLM)を強化する。
RAG最適化のための強化学習における報酬モデルの役割は未定である。
報酬モデルを開発するためのフレームワークである textbfRAG-Reward を導入する。
論文 参考訳(メタデータ) (2025-01-22T22:59:19Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed KV Caches for Chunked Text [9.798085995254166]
現在のRetrieval-Augmented Generation (RAG)システムは、プリフィルのために多数の検索された文書チャンクを処理する。
本稿では,新しいRAGシステムであるTurboRAGを紹介する。
一連のRAGベンチマークによる実験の結果、TurboRAGは従来のRAGシステムと比較してTTFTを最大9.4倍削減することが示された。
論文 参考訳(メタデータ) (2024-10-10T03:52:54Z) - Efficient In-Domain Question Answering for Resource-Constrained Environments [0.07499722271664146]
Retrieval Augmented Generation (RAG)は、事前訓練された大規模言語モデル(LLM)に外部知識を統合する方法である。
近年の研究では、これらの問題に対処するために微調整を使うことが成功している。
本研究では,RAFTとLoRAを組み合わせることで,微調整やストレージの要求を低減し,推論時間を短縮する。
論文 参考訳(メタデータ) (2024-09-26T08:55:21Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - Fortifying Fully Convolutional Generative Adversarial Networks for Image Super-Resolution Using Divergence Measures [17.517010701323823]
超解像(英: Super-Resolution, SR)は、時間制限された画像処理問題である。
本稿では,SRのためのGANベースのアーキテクチャを提案する。
本稿では,GAN発生器の深度を増大させることで得られる差分畳み込み特性を,学習可能な凸重みの集合で最適に組み合わせることができることを示す。
論文 参考訳(メタデータ) (2024-04-09T13:19:43Z) - PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System
Co-design [16.76965926088238]
PipeRAGは、生成遅延を低減し、生成品質を向上させるアルゴリズムとシステムの共同設計手法である。
評価の結果,PpipeRAGは最大2.6$times$の高速化を実現し,生成品質を向上した。
論文 参考訳(メタデータ) (2024-03-08T21:09:20Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。
フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。
訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文 参考訳(メタデータ) (2021-06-01T20:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。