論文の概要: Cache Mechanism for Agent RAG Systems
- arxiv url: http://arxiv.org/abs/2511.02919v1
- Date: Tue, 04 Nov 2025 19:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.211535
- Title: Cache Mechanism for Agent RAG Systems
- Title(参考訳): エージェントRAGシステムのキャッシュ機構
- Authors: Shuhang Lin, Zhencan Peng, Lingyao Li, Xiao Lin, Xi Zhu, Yongfeng Zhang,
- Abstract要約: ARC(Agent RAG Cache Mechanism)は、各エージェントの小さな高価値コーパスを動的に管理する、新しい、アノテーションのないキャッシュフレームワークである。
その結果, ARC はRAG を用いた LLM エージェントの効率と有効性を大幅に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 32.587302983158274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Model (LLM)-based agents have been propelled by Retrieval-Augmented Generation (RAG), which grants the models access to vast external knowledge bases. Despite RAG's success in improving agent performance, agent-level cache management, particularly constructing, maintaining, and updating a compact, relevant corpus dynamically tailored to each agent's need, remains underexplored. Therefore, we introduce ARC (Agent RAG Cache Mechanism), a novel, annotation-free caching framework that dynamically manages small, high-value corpora for each agent. By synthesizing historical query distribution patterns with the intrinsic geometry of cached items in the embedding space, ARC automatically maintains a high-relevance cache. With comprehensive experiments on three retrieval datasets, our experimental results demonstrate that ARC reduces storage requirements to 0.015% of the original corpus while offering up to 79.8% has-answer rate and reducing average retrieval latency by 80%. Our results demonstrate that ARC can drastically enhance efficiency and effectiveness in RAG-powered LLM agents.
- Abstract(参考訳): 大規模言語モデル(LLM)をベースとしたエージェントの最近の進歩は、巨大な外部知識ベースへのアクセスをモデルに許可するRetrieval-Augmented Generation (RAG)によって推進されている。
RAGがエージェント性能の改善に成功したにもかかわらず、エージェントレベルのキャッシュ管理、特に各エージェントのニーズに合わせて動的に調整されたコンパクトで関連するコーパスの構築、保守、更新は未定のままである。
そこで我々はARC(Agent RAG Cache Mechanism)を導入し,各エージェントの小さな高価値コーパスを動的に管理する,アノテーションのない新しいキャッシュフレームワークを提案する。
履歴クエリ分布パターンを埋め込み空間にキャッシュされたアイテムの固有の幾何学で合成することにより、ARCは自動的に高関連キャッシュを維持できる。
3つの検索データセットに関する総合的な実験により、ARCはストレージ要求を元のコーパスの0.015%まで削減し、79.8%のハッシュ回答率を提供し、平均検索遅延を80%削減することを示した。
その結果, ARC はRAG を用いた LLM エージェントの効率と有効性を大幅に向上させることができることがわかった。
関連論文リスト
- Alita-G: Self-Evolving Generative Agent for Agent Generation [54.49365835457433]
汎用エージェントをドメインエキスパートに変換するフレームワークであるALITA-Gを提案する。
このフレームワークでは、ジェネラリストエージェントが対象ドメインタスクのキュレートされたスイートを実行する。
計算コストを削減しながら、大きな利益を得ることができます。
論文 参考訳(メタデータ) (2025-10-27T17:59:14Z) - DecEx-RAG: Boosting Agentic Retrieval-Augmented Generation with Decision and Execution Optimization via Process Supervision [50.89715397781075]
Agentic Retrieval-Augmented Generation (Agentic RAG)は、複雑なタスクの処理能力を向上する。
我々は,決定と実行を取り入れたマルコフ決定プロセス(MDP)としてRAGをモデル化したDecEx-RAGを提案する。
DecEx-RAGは6つのデータセットに対して平均6.2%の絶対的なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-07T08:49:22Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - Accelerating Adaptive Retrieval Augmented Generation via Instruction-Driven Representation Reduction of Retrieval Overlaps [16.84310001807895]
本稿では,A-RAG法に適用可能なモデルに依存しないアプローチを提案する。
具体的には、キャッシュアクセスと並列生成を使用して、それぞれプリフィルとデコードステージを高速化する。
論文 参考訳(メタデータ) (2025-05-19T05:39:38Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - Leveraging Approximate Caching for Faster Retrieval-Augmented Generation [6.674782158041247]
本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。
Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れると、以前検索されたドキュメントを再利用する。
我々の実験では、LSH方式と現実的にスキューされたMedRAGのワークロードとの近さは、データベースのリコールとテストの精度を維持しながら、データベース呼び出しを77.2%削減することを示した。
論文 参考訳(メタデータ) (2025-03-07T15:54:04Z) - Efficient Architecture Search via Bi-level Data Pruning [70.29970746807882]
この研究は、DARTSの双方向最適化におけるデータセット特性の重要な役割を探求する先駆者となった。
我々は、スーパーネット予測力学を計量として活用する新しいプログレッシブデータプルーニング戦略を導入する。
NAS-Bench-201サーチスペース、DARTSサーチスペース、MobileNetのようなサーチスペースに関する総合的な評価は、BDPがサーチコストを50%以上削減することを検証する。
論文 参考訳(メタデータ) (2023-12-21T02:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。