論文の概要: SR-KI: Scalable and Real-Time Knowledge Integration into LLMs via Supervised Attention
- arxiv url: http://arxiv.org/abs/2511.06446v1
- Date: Sun, 09 Nov 2025 16:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.949763
- Title: SR-KI: Scalable and Real-Time Knowledge Integration into LLMs via Supervised Attention
- Title(参考訳): SR-KI: 監視された注意によるLLMへのスケーラブルでリアルタイムな知識統合
- Authors: Bohan Yu, Wei Huang, Kang Liu,
- Abstract要約: SR-KIは、リアルタイムおよび大規模構造化知識ベース(KB)を大規模言語モデル(LLM)に統合するための新しいアプローチである。
- 参考スコア(独自算出の注目度): 16.406252472427834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes SR-KI, a novel approach for integrating real-time and large-scale structured knowledge bases (KBs) into large language models (LLMs). SR-KI begins by encoding KBs into key-value pairs using a pretrained encoder, and injects them into LLMs' KV cache. Building on this representation, we employ a two-stage training paradigm: first locating a dedicated retrieval layer within the LLM, and then applying an attention-based loss at this layer to explicitly supervise attention toward relevant KB entries. Unlike traditional retrieval-augmented generation methods that rely heavily on the performance of external retrievers and multi-stage pipelines, SR-KI supports end-to-end inference by performing retrieval entirely within the models latent space. This design enables efficient compression of injected knowledge and facilitates dynamic knowledge updates. Comprehensive experiments demonstrate that SR-KI enables the integration of up to 40K KBs into a 7B LLM on a single A100 40GB GPU, and achieves strong retrieval performance, maintaining over 98% Recall@10 on the best-performing task and exceeding 88% on average across all tasks. Task performance on question answering and KB ID generation also demonstrates that SR-KI maintains strong performance while achieving up to 99.75% compression of the injected KBs.
- Abstract(参考訳): 本稿では,実時間および大規模構造化知識ベース(KB)を大規模言語モデル(LLM)に統合するための新しいアプローチであるSR-KIを提案する。
SR-KIは、予め訓練されたエンコーダを使用してKBをキーと値のペアに符号化し、LLMのKVキャッシュに注入することから始まる。
この表現に基づいて、我々はまずLLM内に専用検索層を配置し、次にこの層に注意に基づく損失を適用して、関連するKBエントリへの注意を明示的に監視する、2段階のトレーニングパラダイムを採用している。
外部レトリバーやマルチステージパイプラインの性能に大きく依存する従来の検索拡張生成手法とは異なり、SR-KIはモデル潜在空間内で完全に検索を行うことで、エンドツーエンドの推論をサポートする。
この設計は、注入された知識の効率的な圧縮を可能にし、動的知識更新を容易にする。
包括的な実験によると、SR-KIは1つのA100 40GB GPU上で最大40KKBの7B LLMへの統合を可能にし、高い検索性能を実現し、最高のパフォーマンスのタスクでは98% Recall@10を、すべてのタスクで平均88%以上維持する。
質問応答とKBID生成のタスク性能は、SR-KIが最大99.75%のKB圧縮を達成しつつ、強い性能を維持していることを示している。
関連論文リスト
- AtlasKV: Augmenting LLMs with Billion-Scale Knowledge Graphs in 20GB VRAM [60.583864162256525]
数十億の知識グラフを持つ大規模言語モデルを拡張するための,スケーラブルで効果的で汎用的な方法を提案する。
KG2KVとHiKVPはKGトリプルをLLMに統合し、サブ線形時間とメモリの複雑さを持つ。
LLM固有の注意機構を用いて、強力な知識基盤と一般化性能を維持している。
論文 参考訳(メタデータ) (2025-10-20T15:40:14Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs [74.2538340966038]
マルチモーダル言語モデル(MLLM)が視覚入力をどのように処理するかを,その注意機構を解析して検討する。
LLMにおける注目のごく一部だけが視覚的理解に有効である。
我々は,KVキャッシュ最適化手法であるSparseMMを導入し,その視覚的スコアに基づいて非対称な計算予算をLLMの先頭に割り当てる。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - HASH-RAG: Bridging Deep Hashing with Retriever for Efficient, Fine Retrieval and Augmented Generation [16.147618749631103]
Hash-RAGは、ディープハッシュ技術とシステマティック最適化を統合するフレームワークである。
このハッシュベースの効率的な検索フレームワークを基盤として,きめ細かなチャンクの基盤を確立する。
論文 参考訳(メタデータ) (2025-05-22T02:22:11Z) - KBLaM: Knowledge Base augmented Language Model [8.247901935078357]
本稿では,Large Language Model (LLM) を外部知識で拡張するための知識ベース拡張言語モデル (KBLaM) を提案する。
KBLaMは文書のコーパスから構築された知識ベース(KB)で動作し、KB内の各知識を連続鍵値ベクトル対に変換する。
提案手法では,A10080GBの1つのGPU上で,8Kコンテキストウィンドウのみの8B事前学習LLMに,10Kトリプル以上の大容量KBを組み込むことが可能である。
論文 参考訳(メタデータ) (2024-10-14T12:45:10Z) - Bridging LLMs and KGs without Fine-Tuning: Intermediate Probing Meets Subgraph-Aware Entity Descriptions [49.36683223327633]
大規模言語モデル(LLM)は、幅広い世界の知識をカプセル化し、強力なコンテキストモデリング能力を示す。
実効的で効率的なKGCを実現するために,LLMの強みを頑健な知識表現と相乗化するための新しいフレームワークを提案する。
従来手法に比べて47%の相対的な改善を達成し,我々の知る限り,ファインチューニング LLM に匹敵する分類性能を初めて達成した。
論文 参考訳(メタデータ) (2024-08-13T10:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。