論文の概要: From Static to Dynamic: A Streaming RAG Approach to Real-time Knowledge Base
- arxiv url: http://arxiv.org/abs/2508.05662v1
- Date: Thu, 31 Jul 2025 14:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.129095
- Title: From Static to Dynamic: A Streaming RAG Approach to Real-time Knowledge Base
- Title(参考訳): 静的から動的へ:リアルタイム知識ベースへのストリーミングRAGアプローチ
- Authors: Yuzhou Zhu,
- Abstract要約: Streaming RAGは、コサインスクリーニング、ミニバッチクラスタリング、およびコンパクトなプロトタイプセットを維持するためにヘビーヒッターフィルタを組み合わせた統一パイプラインである。
8つのリアルタイムストリームの実験では、Recall@10(最大3ポイント、p 0.01)、エンドツーエンドのレイテンシが15ミリ秒未満、スループットが150MBの予算で毎秒900ドキュメント以上である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic streams from news feeds, social media, sensor networks, and financial markets challenge static RAG frameworks. Full-scale indices incur high memory costs; periodic rebuilds introduce latency that undermines data freshness; naive sampling sacrifices semantic coverage. We present Streaming RAG, a unified pipeline that combines multi-vector cosine screening, mini-batch clustering, and a counter-based heavy-hitter filter to maintain a compact prototype set. We further prove an approximation bound \$E\[R(K\_t)] \ge R^\* - L \Delta\$ linking retrieval quality to clustering variance. An incremental index upsert mechanism refreshes prototypes without interrupting queries. Experiments on eight real-time streams show statistically significant gains in Recall\@10 (up to 3 points, p < 0.01), end-to-end latency below 15 ms, and throughput above 900 documents per second under a 150 MB budget. Hyperparameter sensitivity analysis over cluster count, admission probability, relevance threshold, and counter capacity validates default settings. In open-domain question answering with GPT-3.5 Turbo, we record 3.2-point gain in Exact Match and 2.8-point gain in F1 on SQuAD; abstractive summarization yields ROUGE-L improvements. Streaming RAG establishes a new Pareto frontier for retrieval augmentation.
- Abstract(参考訳): ニュースフィード、ソーシャルメディア、センサーネットワーク、金融市場からの動的ストリームは、静的なRAGフレームワークに挑戦する。
フルスケールのインデックスはメモリコストが高く、周期的な再構築はデータの更新性を損なう遅延を導入し、単純なサンプリングはセマンティックカバレッジを犠牲にする。
本稿では,マルチベクトルコサインスクリーニング,ミニバッチクラスタリング,および対向型重ヒッタフィルタを組み合わせた,コンパクトなプロトタイプセットを維持する統一パイプラインであるStreaming RAGを提案する。
さらに、探索品質とクラスタリング分散をリンクする近似境界 \$E\[R(K\_t)] \ge R^\* - L \Delta\$ を証明した。
インクリメンタルインデックスアップサートメカニズムは、クエリを中断することなくプロトタイプを更新する。
8つのリアルタイムストリームの実験では、Recall\@10(最大3ポイント、p < 0.01)、エンドツーエンドのレイテンシが15ミリ秒未満、スループットが150MBの予算で毎秒900ドキュメント以上である。
クラスタカウント、アクセプション確率、関連しきい値、カウンタキャパシティに対するハイパーパラメータ感度分析は、デフォルト設定を検証する。
GPT-3.5 Turbo を用いたオープンドメイン質問応答では,SQuAD 上では Exact Match で 3.2-point gain と F1 で 2.8-point gain を記録し,抽象的な要約によりROUGE-L が向上する。
Streaming RAGは、検索拡張のための新しいParetoフロンティアを確立する。
関連論文リスト
- Randomization Boosts KV Caching, Learning Balances Query Load: A Joint Perspective [31.67506313325633]
KVキャッシュは、キー値(KV)ペアを以前のクエリから再利用することで、Large Language Model(LLM)推論を高速化する技術である。
デフォルトのLeast recently Used (LRU)消去アルゴリズムは、動的オンラインクエリの到着に苦労する。
我々は、KVキャッシュ消去とクエリルーティングのコアトレードオフをキャプチャする最初の統一数学的モデルを与える。
論文 参考訳(メタデータ) (2026-01-26T22:20:59Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - PUFM++: Point Cloud Upsampling via Enhanced Flow Matching [15.738247394527024]
PUFM++は、スパース、ノイズ、部分的な観測から点雲を再構築するための拡張されたフローマッチングフレームワークである。
本稿では,まず,スパース入力から高密度ターゲットへ直進する直進経路の流れを学習し,次にノイズ摂動サンプルを用いて改良し,終端境界分布をよりよく近似する2段階フローマッチング手法を提案する。
合成ベンチマークと実世界のスキャンの実験は、PUFM++がポイントクラウドのアップサンプリングにおいて、新しい最先端の技術を設定していることを示している。
論文 参考訳(メタデータ) (2025-12-24T06:30:42Z) - RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - vAttention: Verified Sparse Attention [100.98210818821688]
vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。
vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。
モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
論文 参考訳(メタデータ) (2025-10-07T08:46:08Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - PINGS: Physics-Informed Neural Network for Fast Generative Sampling [0.0]
PINGSは,物理インフォームドネットワークをトレーニングし,逆時間確率フローのダイナミクスを近似することで拡散サンプリングを補正するフレームワークである。
概念実証として、3次元標準正規から非ガウスガウス混合モデル(GMM)への直接写像を学習する。
PINGSは、終点アンカーを持つPINNスタイルの残差問題として生成的サンプリングを行い、NFE = 1 のホワイトボックスで微分可能な写像を得る。
論文 参考訳(メタデータ) (2025-09-14T14:22:33Z) - PentaRAG: Large-Scale Intelligent Knowledge Retrieval for Enterprise LLM Applications [5.4838799162708245]
我々はPentaRAGを紹介した。PentaRAGは5層モジュールで、各クエリを2つのインスタントキャッシュにルーティングする。
我々はPentaRAGがクエリ毎の平均GPU時間を0.248秒に削減したことを示す。
その結果、階層型ルーティング戦略は生産レベルのRAGシステムにおいて、鮮度、速度、効率性を同時に提供できることが示されている。
論文 参考訳(メタデータ) (2025-06-18T07:54:53Z) - SkipVAR: Accelerating Visual Autoregressive Modeling via Adaptive Frequency-Aware Skipping [30.85025293160079]
生成プロセスにおける高周波コンポーネント、または後続のステップは、推論遅延に不均等に寄与する。
ステップ冗長性と非条件分岐冗長性の2つの主要な非効率性の原因を同定する。
本稿では、不要な生成ステップを選択的に省略して効率を向上させる自動ステップスキッピング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-10T15:35:29Z) - vCache: Verified Semantic Prompt Caching [75.87215136638828]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - ATM Fraud Detection using Streaming Data Analytics [3.4543720783285052]
本研究では,静的およびストリーミングの文脈でATMの不正検出を行う手法を提案する。
どちらの文脈でも、RFは最高のモデルであることが判明した。
また、RFは次の最高の性能モデルよりも統計的に有意であることが実証的に証明されている。
論文 参考訳(メタデータ) (2023-03-08T23:40:18Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。