論文の概要: PentaRAG: Large-Scale Intelligent Knowledge Retrieval for Enterprise LLM Applications
- arxiv url: http://arxiv.org/abs/2506.21593v1
- Date: Wed, 18 Jun 2025 07:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.31115
- Title: PentaRAG: Large-Scale Intelligent Knowledge Retrieval for Enterprise LLM Applications
- Title(参考訳): PentaRAG: エンタープライズLLMアプリケーションのための大規模インテリジェントな知識検索
- Authors: Abu Hanif Muhammad Syarubany, Chang Dong Yoo,
- Abstract要約: 我々はPentaRAGを紹介した。PentaRAGは5層モジュールで、各クエリを2つのインスタントキャッシュにルーティングする。
我々はPentaRAGがクエリ毎の平均GPU時間を0.248秒に削減したことを示す。
その結果、階層型ルーティング戦略は生産レベルのRAGシステムにおいて、鮮度、速度、効率性を同時に提供できることが示されている。
- 参考スコア(独自算出の注目度): 5.4838799162708245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enterprise deployments of large-language model (LLM) demand continuously changing document collections with sub-second latency and predictable GPU cost requirements that classical Retrieval-Augmented Generation (RAG) pipelines only partially satisfy. We present PentaRAG, a five-layer module that routes each query through two instant caches (fixed key-value and semantic), a memory-recall mode that exploits the LLM's own weights, an adaptive session memory, and a conventional retrieval-augmentation layer. Implemented with Mistral-8B, Milvus and vLLM, the system can answer most repeated or semantically similar questions from low-latency caches while retaining full retrieval for novel queries. On the TriviaQA domain, LoRA fine-tuning combined with the memory-recall layer raises answer similarity by approximately 8% and factual correctness by approximately 16% over the base model. Under a nine-session runtime simulation, cache warming reduces mean latency from several seconds to well below one second and shifts traffic toward the fast paths. Resource-efficiency tests show that PentaRAG cuts average GPU time to 0.248 seconds per query, roughly half that of a naive RAG baseline, and sustains an aggregate throughput of approximately 100,000 queries per second on our setup. These results demonstrate that a layered routing strategy can deliver freshness, speed, and efficiency simultaneously in production-grade RAG systems.
- Abstract(参考訳): 大規模言語モデル(LLM)のエンタープライズデプロイメントでは、従来のRetrieval-Augmented Generation(RAG)パイプラインが部分的にのみ満足する、サブ秒のレイテンシと予測可能なGPUコストで、ドキュメントコレクションを継続的に変更する必要がある。
本稿では,各クエリを2つのインスタントキャッシュ(固定キー値とセマンティック)にルーティングする5層モジュールであるPentaRAG,LLMの重みを利用するメモリリコールモード,適応セッションメモリ,従来の検索拡張レイヤを提案する。
Mistral-8B、Milvus、vLLMで実装されたこのシステムは、新しいクエリの完全な検索を維持しながら、低遅延キャッシュから最も繰り返しまたは意味的に類似した質問に答えることができる。
TriviaQAドメインでは、LoRAの微調整とメモリ・リコール・レイヤを組み合わせると、解の類似度は約8%、事実の正しさはベースモデルよりも約16%向上する。
9セッションのランタイムシミュレーションの下では、キャッシュのウォーミングは平均レイテンシを数秒から1秒以下に短縮し、トラフィックを高速パスにシフトする。
リソース効率テストによると、PentaRAGはクエリ毎の平均GPU時間を0.248秒に削減し、RAGベースラインの約半分を削減し、セットアップ時に毎秒約10万クエリのスループットを維持できる。
これらの結果から,階層型ルーティング戦略は実運用レベルのRAGシステムにおいて,鮮度,速度,効率性を同時に提供できることが示唆された。
関連論文リスト
- Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - vCache: Verified Semantic Prompt Caching [75.87215136638828]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - EasyRAG: Efficient Retrieval-Augmented Generation Framework for Automated Network Operations [24.142649256624082]
本稿では,自動ネットワーク操作のためのシンプルで軽量で効率的な検索拡張生成フレームワークであるEasyRAGを提案する。
私たちのフレームワークには3つの利点があります。
第2の方法は,BM25検索とBGE-Rerankerのリグレードから成り,どのモデルも微調整する必要がなく,最小限のVRAMを占有し,デプロイが容易で,高度にスケーラブルである。
最後のものは効率的な推論であり、我々は粗いランク付け、再ランク付け、生成プロセス全体の効率的な推論促進スキームを設計した。
論文 参考訳(メタデータ) (2024-10-14T09:17:43Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation [11.321659218769598]
Retrieval-Augmented Generation (RAG)は、様々な自然言語処理タスクにおいて大幅に改善されている。
RAGCacheは、検索した知識の中間状態を知識ツリーに整理し、それらをGPUとホストメモリ階層にキャッシュする。
RAGCacheは、最初のトークン(TTTF)までの時間を最大4倍に削減し、スループットを最大2.1倍改善する。
論文 参考訳(メタデータ) (2024-04-18T18:32:30Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。