論文の概要: From Static to Dynamic: A Streaming RAG Approach to Real-time Knowledge Base
- arxiv url: http://arxiv.org/abs/2508.05662v1
- Date: Thu, 31 Jul 2025 14:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.129095
- Title: From Static to Dynamic: A Streaming RAG Approach to Real-time Knowledge Base
- Title(参考訳): 静的から動的へ:リアルタイム知識ベースへのストリーミングRAGアプローチ
- Authors: Yuzhou Zhu,
- Abstract要約: Streaming RAGは、コサインスクリーニング、ミニバッチクラスタリング、およびコンパクトなプロトタイプセットを維持するためにヘビーヒッターフィルタを組み合わせた統一パイプラインである。
8つのリアルタイムストリームの実験では、Recall@10(最大3ポイント、p 0.01)、エンドツーエンドのレイテンシが15ミリ秒未満、スループットが150MBの予算で毎秒900ドキュメント以上である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic streams from news feeds, social media, sensor networks, and financial markets challenge static RAG frameworks. Full-scale indices incur high memory costs; periodic rebuilds introduce latency that undermines data freshness; naive sampling sacrifices semantic coverage. We present Streaming RAG, a unified pipeline that combines multi-vector cosine screening, mini-batch clustering, and a counter-based heavy-hitter filter to maintain a compact prototype set. We further prove an approximation bound \$E\[R(K\_t)] \ge R^\* - L \Delta\$ linking retrieval quality to clustering variance. An incremental index upsert mechanism refreshes prototypes without interrupting queries. Experiments on eight real-time streams show statistically significant gains in Recall\@10 (up to 3 points, p < 0.01), end-to-end latency below 15 ms, and throughput above 900 documents per second under a 150 MB budget. Hyperparameter sensitivity analysis over cluster count, admission probability, relevance threshold, and counter capacity validates default settings. In open-domain question answering with GPT-3.5 Turbo, we record 3.2-point gain in Exact Match and 2.8-point gain in F1 on SQuAD; abstractive summarization yields ROUGE-L improvements. Streaming RAG establishes a new Pareto frontier for retrieval augmentation.
- Abstract(参考訳): ニュースフィード、ソーシャルメディア、センサーネットワーク、金融市場からの動的ストリームは、静的なRAGフレームワークに挑戦する。
フルスケールのインデックスはメモリコストが高く、周期的な再構築はデータの更新性を損なう遅延を導入し、単純なサンプリングはセマンティックカバレッジを犠牲にする。
本稿では,マルチベクトルコサインスクリーニング,ミニバッチクラスタリング,および対向型重ヒッタフィルタを組み合わせた,コンパクトなプロトタイプセットを維持する統一パイプラインであるStreaming RAGを提案する。
さらに、探索品質とクラスタリング分散をリンクする近似境界 \$E\[R(K\_t)] \ge R^\* - L \Delta\$ を証明した。
インクリメンタルインデックスアップサートメカニズムは、クエリを中断することなくプロトタイプを更新する。
8つのリアルタイムストリームの実験では、Recall\@10(最大3ポイント、p < 0.01)、エンドツーエンドのレイテンシが15ミリ秒未満、スループットが150MBの予算で毎秒900ドキュメント以上である。
クラスタカウント、アクセプション確率、関連しきい値、カウンタキャパシティに対するハイパーパラメータ感度分析は、デフォルト設定を検証する。
GPT-3.5 Turbo を用いたオープンドメイン質問応答では,SQuAD 上では Exact Match で 3.2-point gain と F1 で 2.8-point gain を記録し,抽象的な要約によりROUGE-L が向上する。
Streaming RAGは、検索拡張のための新しいParetoフロンティアを確立する。
関連論文リスト
- PentaRAG: Large-Scale Intelligent Knowledge Retrieval for Enterprise LLM Applications [5.4838799162708245]
我々はPentaRAGを紹介した。PentaRAGは5層モジュールで、各クエリを2つのインスタントキャッシュにルーティングする。
我々はPentaRAGがクエリ毎の平均GPU時間を0.248秒に削減したことを示す。
その結果、階層型ルーティング戦略は生産レベルのRAGシステムにおいて、鮮度、速度、効率性を同時に提供できることが示されている。
論文 参考訳(メタデータ) (2025-06-18T07:54:53Z) - SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping [30.85025293160079]
生成プロセスにおける高周波コンポーネント、または後続のステップは、推論遅延に不均等に寄与する。
ステップ冗長性と非条件分岐冗長性の2つの主要な非効率性の原因を同定する。
本稿では、不要な生成ステップを選択的に省略して効率を向上させる自動ステップスキッピング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-10T15:35:29Z) - vCache: Verified Semantic Prompt Caching [75.87215136638828]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - ATM Fraud Detection using Streaming Data Analytics [3.4543720783285052]
本研究では,静的およびストリーミングの文脈でATMの不正検出を行う手法を提案する。
どちらの文脈でも、RFは最高のモデルであることが判明した。
また、RFは次の最高の性能モデルよりも統計的に有意であることが実証的に証明されている。
論文 参考訳(メタデータ) (2023-03-08T23:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。