論文の概要: SubGCache: Accelerating Graph-based RAG with Subgraph-level KV Cache
- arxiv url: http://arxiv.org/abs/2505.10951v2
- Date: Mon, 19 May 2025 17:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.671061
- Title: SubGCache: Accelerating Graph-based RAG with Subgraph-level KV Cache
- Title(参考訳): SubGCache: グラフベースのRAGをサブグラフレベルのKVキャッシュで高速化する
- Authors: Qiuyu Zhu, Liang Zhang, Qianxiong Xu, Cheng Long, Jie Zhang,
- Abstract要約: SubGCacheは、同じような構造的なプロンプトでクエリ間での計算を再利用することで、推論レイテンシを低減することを目的としている。
2つの新しいデータセットの実験では、SubGCacheは推論遅延を同等に減らし、生成品質も改善している。
- 参考スコア(独自算出の注目度): 20.26177496265456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph-based retrieval-augmented generation (RAG) enables large language models (LLMs) to incorporate structured knowledge via graph retrieval as contextual input, enhancing more accurate and context-aware reasoning. We observe that for different queries, it could retrieve similar subgraphs as prompts, and thus we propose SubGCache, which aims to reduce inference latency by reusing computation across queries with similar structural prompts (i.e., subgraphs). Specifically, SubGCache clusters queries based on subgraph embeddings, constructs a representative subgraph for each cluster, and pre-computes the key-value (KV) cache of the representative subgraph. For each query with its retrieved subgraph within a cluster, it reuses the pre-computed KV cache of the representative subgraph of the cluster without computing the KV tensors again for saving computation. Experiments on two new datasets across multiple LLM backbones and graph-based RAG frameworks demonstrate that SubGCache consistently reduces inference latency with comparable and even improved generation quality, achieving up to 6.68$\times$ reduction in time-to-first-token (TTFT).
- Abstract(参考訳): グラフベースの検索拡張生成(RAG)により、大規模言語モデル(LLM)は、グラフ検索による構造化知識を文脈入力として組み込むことができ、より正確で文脈対応の推論を向上することができる。
そこで我々は,異なるクエリに対して,類似したサブグラフをプロンプトとして検索し,類似した構造的プロンプト(サブグラフ)を持つクエリ間での計算再利用による推論遅延の低減を目的としたSubGCacheを提案する。
具体的には、サブグラフの埋め込みに基づいてSubGCacheクラスタクエリをクラスタ化し、各クラスタに対して代表サブグラフを構築し、代表サブグラフのキー値(KV)キャッシュをプリコンパイルする。
クラスタ内で取得したサブグラフを持つクエリ毎に、クラスタの代表サブグラフのプリ計算されたKVキャッシュを再利用し、KVテンソルを再び計算し、計算を節約する。
複数のLLMバックボーンとグラフベースのRAGフレームワークにまたがる2つの新しいデータセットの実験では、SubGCacheが推論レイテンシを一貫して削減し、生成品質も向上し、最大6.68$\times$ reduce in time-to-first-token (TTFT)を実現している。
関連論文リスト
- CLEAR: Cluster-based Prompt Learning on Heterogeneous Graphs [19.956925820094177]
ヘテロジニアスグラフ上のクラスタベースのプロンプトモデルであるCLEARを提案する。
私たちは、同じトレーニング目標を共有するために、プレテキストと下流のタスクを調整します。
下流タスクの実験により、CLEARの優位性が確認された。
論文 参考訳(メタデータ) (2025-02-13T03:10:19Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Deep Temporal Graph Clustering [77.02070768950145]
深部時間グラフクラスタリング(GC)のための汎用フレームワークを提案する。
GCは、時間グラフの相互作用シーケンスに基づくバッチ処理パターンに適合するディープクラスタリング技術を導入している。
我々のフレームワークは、既存の時間グラフ学習手法の性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-18T06:17:50Z) - Towards Writer Retrieval for Historical Datasets [0.6445605125467572]
キーポイントで検出されたクラスタリングSIFT記述子に基づく文字検索のための教師なしアプローチ。
残余ネットワークに続いて提案したNetRVLADは,複雑さを低減した符号化層である。
このアプローチは、現代的なデータセットでも同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-09T11:44:44Z) - EGRC-Net: Embedding-induced Graph Refinement Clustering Network [66.44293190793294]
埋め込みによるグラフリファインメントクラスタリングネットワーク (EGRC-Net) という新しいグラフクラスタリングネットワークを提案する。
EGRC-Netは学習した埋め込みを利用して初期グラフを適応的に洗練し、クラスタリング性能を向上させる。
提案手法はいくつかの最先端手法より一貫して優れている。
論文 参考訳(メタデータ) (2022-11-19T09:08:43Z) - Dual Contrastive Attributed Graph Clustering Network [6.796682703663566]
我々はDCAGC(Dual Contrastive Attributed Graph Clustering Network)と呼ばれる汎用フレームワークを提案する。
DCAGCでは、近隣のコントラストモジュールを利用することで、近隣ノードの類似性を最大化し、ノード表現の品質を向上させる。
DCAGCのすべてのモジュールは、統一されたフレームワークでトレーニングされ、最適化されているため、学習されたノード表現にはクラスタリング指向のメッセージが含まれている。
論文 参考訳(メタデータ) (2022-06-16T03:17:01Z) - Knowledge Base Question Answering by Case-based Reasoning over Subgraphs [81.22050011503933]
本モデルでは,既存のKG補完アルゴリズムよりも複雑な推論パターンを必要とする問合せに対して,より効果的に答えることを示す。
提案モデルは、KBQAベンチマークの最先端モデルよりも優れているか、競合的に動作する。
論文 参考訳(メタデータ) (2022-02-22T01:34:35Z) - Reinforcement Learning Based Query Vertex Ordering Model for Subgraph
Matching [58.39970828272366]
グラフマッチングアルゴリズムは、クエリグラフの埋め込みをデータグラフGに列挙する。
マッチング順序は、これらのバックトラックに基づくサブグラフマッチングアルゴリズムの時間効率において重要な役割を果たす。
本稿では,Reinforcement Learning (RL) と Graph Neural Networks (GNN) 技術を適用して,グラフマッチングアルゴリズムの高品質なマッチング順序を生成する。
論文 参考訳(メタデータ) (2022-01-25T00:10:03Z) - Graph-augmented Learning to Rank for Querying Large-scale Knowledge
Graph [34.774049199809426]
情報検索に基づく知識グラフ質問応答(KGQA)は,大規模知識グラフから回答を取得して回答することを目的としている。
まず,検索したKSGを,新しいサブグラフ分割アルゴリズムを用いて,より小さなKSGに分割する。
次に、ランク付けモデルから上位のKSGを選択するためのグラフ拡張学習を提案する。
論文 参考訳(メタデータ) (2021-11-20T08:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。