論文の概要: HA-RAG: Hotness-Aware RAG Acceleration via Mixed Precision and Data Placement
- arxiv url: http://arxiv.org/abs/2510.20878v1
- Date: Thu, 23 Oct 2025 12:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.281892
- Title: HA-RAG: Hotness-Aware RAG Acceleration via Mixed Precision and Data Placement
- Title(参考訳): HA-RAG: 混合精度とデータ配置による熱性を考慮したRAG加速
- Authors: Danying Ge, Jianhua Gao, Yixue Yang, Weixing Ji,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、外部知識ベースを活用することにより、モデル出力の精度を向上させる。
外部知識ベースの導入は、長期コンテキスト処理における課題をRAGに提示する。
本稿では,ホットネス対応RAG(HA-RAG)推論最適化システムを提案する。
- 参考スコア(独自算出の注目度): 0.8802174039509817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) improves model output accuracy by leveraging external knowledge bases, serving as an effective solution to address hallucination issues and knowledge-update delays in Large Language Models (LLMs). However, the introduction of external knowledge bases presents RAG with challenges in long-context processing, significantly increasing memory consumption and inference latency. Existing research accelerates inference by precomputing Key and Value (KV) of the knowledge base and loading them on-demand during inference. Based on the access frequency of different KV chunks within the external knowledge base, this paper proposes a hotness-aware RAG (HA-RAG) inference optimization system. First, leveraging the numerical distribution of KV chunks, we introduce a hotness-aware mixed-precision compressing and loading method to reduce disk I/O and memory access overhead. Second, we design a hotness-aware data placement strategy that prioritizes storing frequently accessed KV chunks in high-speed memory to improve data access efficiency. Experimental results demonstrate that, compared with TurboRAG, the proposed HA-RAG achieves an average speedup of 2.10x and maximum speedup of 10.49x in Time-To-First-Token (TTFT) with negligible accuracy loss.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、外部知識ベースを活用してモデル出力の精度を向上し、大規模言語モデル(LLM)における幻覚問題や知識更新遅延に対処するための効果的なソリューションとして機能する。
しかしながら、外部知識ベースの導入は、長期コンテキスト処理の課題、メモリ消費と推論遅延を大幅に増加させるRAGを提示する。
既存の研究は、知識ベースのキーとバリュー(KV)をプリ計算し、推論中にオンデマンドでロードすることで、推論を加速する。
本稿では,外部知識ベース内の異なるKVチャンクのアクセス周波数に基づいて,ホットネス対応RAG(HA-RAG)推論最適化システムを提案する。
まず、KVチャンクの数値分布を利用して、ディスクI/Oとメモリアクセスオーバーヘッドを低減するために、ホットネス対応の混合精度圧縮負荷法を導入する。
次に、高速メモリに頻繁にアクセスされるKVチャンクの保存を優先し、データアクセス効率を向上させるホットネス対応データ配置戦略を設計する。
実験結果から,提案したHA-RAGはTurboRAGと比較して平均速度2.10倍,最大速度10.49倍であり,精度損失は無視できないことがわかった。
関連論文リスト
- XQuant: Achieving Ultra-Low Bit KV Cache Quantization with Cross-Layer Compression [54.28208936996186]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
量子化は、歴史的情報を保持しながらメモリ消費を減らすための有望な解決策として現れてきた。
超低等価ビット幅KVキャッシュ量子化を実現するトレーニングフリーでプラグアンドプレイのフレームワークであるXQuantを提案する。
論文 参考訳(メタデータ) (2025-10-13T10:17:21Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。
本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。
本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文 参考訳(メタデータ) (2025-05-20T14:14:38Z) - RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。
KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文 参考訳(メタデータ) (2025-05-05T18:01:17Z) - TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval [16.65446281180872]
Retrieval-augmented Generation (RAG)は、大規模な言語モデル(LLM)を外部データソースに拡張する。
現代のRAGパイプラインは大規模なデータストアに依存しており、レイテンシに敏感なデプロイメントにおけるシステムの課題につながっている。
我々は,GPUメモリの必要量を最小限に抑え,RAGレイテンシを低減する効率的な推論システムであるTeleRAGを提案する。
論文 参考訳(メタデータ) (2025-02-28T11:32:22Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed KV Caches for Chunked Text [9.798085995254166]
現在のRetrieval-Augmented Generation (RAG)システムは、プリフィルのために多数の検索された文書チャンクを処理する。
本稿では,新しいRAGシステムであるTurboRAGを紹介する。
一連のRAGベンチマークによる実験の結果、TurboRAGは従来のRAGシステムと比較してTTFTを最大9.4倍削減することが示された。
論文 参考訳(メタデータ) (2024-10-10T03:52:54Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。