Fugu-MT 論文翻訳(概要): HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse

論文の概要: HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse

arxiv url: http://arxiv.org/abs/2504.02921v1
Date: Thu, 03 Apr 2025 17:08:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-14 22:34:04.546296
Title: HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse
Title（参考訳）: HyperRAG:リランカKVキャッシュ再利用による検索強化世代における品質効率トレードオフの強化
Authors: Yuwei An, Yihua Cheng, Seo Jin Park, Junchen Jiang,
Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の性能向上のための強力なパラダイムとして登場した。 RAGパイプラインの品質と効率のトレードオフを最適化するシステムであるHyperRAGを提案する。我々は、HyperRAGがデコーダのみのリランカで2～3倍のスループット向上を実現し、従来のRAGサービスと比較して下流のパフォーマンス向上を実現していることを示す。
参考スコア（独自算出の注目度）: 7.521340060861743
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing the performance of large language models (LLMs) by integrating external knowledge into the generation process. A key component of RAG pipelines is the reranker, which selects the most relevant documents from a pool of retrieved candidates and significantly improves the quality of the generated responses. While rerankers refine the selection of retrieved documents in RAG pipelines, they introduce computational challenges that hinder high throughput and low latency. To address this problem, we propose HyperRAG, a system that optimizes the trade-off between quality and efficiency in RAG pipelines by leveraging KV-cache reuse for efficient reranker inference. By reusing document-side KV-cache, HyperRAG achieves both high-quality generation and system-level efficiency. To fully realize the benefits of KV-cache reuse, HyperRAG incorporates a range of system-level optimizations designed to enhance efficiency and scalability. Experiments show that HyperRAG achieves a 2 - 3 throughput improvement with decoder-only rerankers while also delivering higher downstream performance compared with traditional RAG service.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、外部知識を生成プロセスに統合することにより、大規模言語モデル(LLM)の性能を向上させるための強力なパラダイムとして登場した。 RAGパイプラインの重要なコンポーネントは、検索された候補のプールから最も関連性の高いドキュメントを選択し、生成されたレスポンスの品質を大幅に改善する、リランカである。リランカは、RAGパイプラインで取得したドキュメントの選択を洗練する一方で、高いスループットと低レイテンシを阻害する計算上の課題を導入している。この問題に対処するため,我々は,KV-cacheの再利用を有効活用し,RAGパイプラインの品質と効率のトレードオフを最適化するシステムHyperRAGを提案する。ドキュメントサイドのKV-cacheを再利用することで、HyperRAGは高品質な生成とシステムレベルの効率の両方を達成する。 KV-cacheの再利用の利点をフルに実現するため、HyperRAGは効率性とスケーラビリティを向上させるように設計されたシステムレベルの最適化を多種多様に取り入れている。実験によると、HyperRAGはデコーダのみのリランカで2～3スループットの改善を実現し、従来のRAGサービスと比較して下流のパフォーマンスも向上している。

関連論文リスト

Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文参考訳（メタデータ） (2025-04-07T15:27:37Z)
RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving [9.962031642362813]
Retrieval-augmented Generation (RAG) は、信頼性LLMサービスに対する一般的なアプローチとして現れつつある。 RAGは、幅広いRAGアルゴリズムをキャプチャする構造化された抽象化である。 RAGOは、効率的なRAGサービスのためのシステム最適化フレームワークである。
論文参考訳（メタデータ） (2025-03-18T18:58:13Z)
TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval [10.268774281394261]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)を外部データソースに拡張し、事実の正しさとドメインカバレッジを高める。現代のRAGパイプラインは大規模なデータストアに依存しており、レイテンシに敏感なデプロイメントにおけるシステムの課題につながっている。我々は,GPUメモリの必要量を最小限に抑え,RAGレイテンシを低減する効率的な推論システムであるTeleRAGを提案する。
論文参考訳（メタデータ） (2025-02-28T11:32:22Z)
RoseRAG: Robust Retrieval-augmented Generation with Small-scale LLMs via Margin-aware Preference Optimization [53.63439735067081]
大規模言語モデル(LLM)は目覚ましい性能を達成したが、高い計算コストとレイテンシに直面している。 Retrieval-augmented Generation (RAG) は、外部知識を統合するのに役立つが、不完全な検索は、SLMを誤解させるノイズを引き起こす可能性がある。我々は、Margin-aware Preference Optimizationを通じて、SLMのための堅牢なRAGフレームワークであるRoseRAGを提案する。
論文参考訳（メタデータ） (2025-02-16T04:56:53Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
RAG-Reward: Optimizing RAG with Reward Modeling and RLHF [8.911260109659489]
Retrieval-augmented Generation (RAG)は、関連知識と最新の知識でLarge Language Models (LLM)を強化する。 RAG最適化のための強化学習における報酬モデルの役割は未定である。報酬モデルを開発するためのフレームワークである textbfRAG-Reward を導入する。
論文参考訳（メタデータ） (2025-01-22T22:59:19Z)
Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文参考訳（メタデータ） (2024-06-29T02:40:28Z)
Fortifying Fully Convolutional Generative Adversarial Networks for Image Super-Resolution Using Divergence Measures [17.517010701323823]
超解像(英: Super-Resolution, SR)は、時間制限された画像処理問題である。本稿では,SRのためのGANベースのアーキテクチャを提案する。本稿では,GAN発生器の深度を増大させることで得られる差分畳み込み特性を,学習可能な凸重みの集合で最適に組み合わせることができることを示す。
論文参考訳（メタデータ） (2024-04-09T13:19:43Z)
PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System Co-design [16.76965926088238]
PipeRAGは、生成遅延を低減し、生成品質を向上させるアルゴリズムとシステムの共同設計手法である。評価の結果,PpipeRAGは最大2.6$times$の高速化を実現し,生成品質を向上した。
論文参考訳（メタデータ） (2024-03-08T21:09:20Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文参考訳（メタデータ） (2021-06-01T20:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。