論文の概要: Semantic Caching of Contextual Summaries for Efficient Question-Answering with Language Models
- arxiv url: http://arxiv.org/abs/2505.11271v1
- Date: Fri, 16 May 2025 14:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.188807
- Title: Semantic Caching of Contextual Summaries for Efficient Question-Answering with Language Models
- Title(参考訳): 言語モデルを用いた効率的な質問応答のための文脈要約のセマンティックキャッシング
- Authors: Camille Couturier, Spyros Mastorakis, Haiying Shen, Saravan Rajmohan, Victor Rühle,
- Abstract要約: 大規模言語モデル(LLM)は、リアルタイムの質問応答と検索拡張生成のために、エッジとクラウドプラットフォームにデプロイされることが増えている。
本稿では,文脈要約を保存・再利用するためのセマンティックキャッシング手法を提案する。
本手法は,全文書処理に匹敵する解の精度を維持しつつ,冗長計算を最大50~60%削減する。
- 参考スコア(独自算出の注目度): 11.012474205717178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed across edge and cloud platforms for real-time question-answering and retrieval-augmented generation. However, processing lengthy contexts in distributed systems incurs high computational overhead, memory usage, and network bandwidth. This paper introduces a novel semantic caching approach for storing and reusing intermediate contextual summaries, enabling efficient information reuse across similar queries in LLM-based QA workflows. Our method reduces redundant computations by up to 50-60% while maintaining answer accuracy comparable to full document processing, as demonstrated on NaturalQuestions, TriviaQA, and a synthetic ArXiv dataset. This approach balances computational cost and response quality, critical for real-time AI assistants.
- Abstract(参考訳): 大規模言語モデル(LLM)は、リアルタイムの質問応答と検索拡張生成のために、エッジとクラウドプラットフォームにデプロイされることが増えている。
しかし、分散システムにおける長いコンテキストの処理は、高い計算オーバーヘッド、メモリ使用量、ネットワーク帯域幅を発生させる。
本稿では、LLMベースのQAワークフローにおける類似クエリ間の効率的な情報再利用を可能にする、中間文脈要約の保存と再利用のための新しいセマンティックキャッシング手法を提案する。
提案手法は,NaturalQuestions, TriviaQA, および合成ArXivデータセットで示されるような,全文書処理に匹敵する応答精度を維持しつつ, 冗長計算を最大50~60%削減する。
このアプローチは、リアルタイムAIアシスタントにとって重要な計算コストと応答品質のバランスを取る。
関連論文リスト
- Efficient Conversational Search via Topical Locality in Dense Retrieval [9.38751103209178]
我々は、応答時間を改善するために、会話クエリに固有のトピックの局所性を利用する。
クエリの埋め込み類似性を活用することで,検索空間を意味的に関連するドキュメントクラスタに動的に制限する。
その結果,提案システムは複雑なマルチターンクエリを高い精度と効率で効果的に処理できることが示唆された。
論文 参考訳(メタデータ) (2025-04-30T10:56:34Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。
このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。
私たちのコードはhttps://github.com/OceannTwT/LQCA.comで公開されています。
論文 参考訳(メタデータ) (2024-10-02T15:39:55Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - Superposition Prompting: Improving and Accelerating Retrieval-Augmented Generation [22.124234811959532]
大きな言語モデル(LLM)は、長いコンテキストを処理する際に大きな欠点を示す。
本稿では,事前学習したトランスフォーマーベースLLMに直接適用可能な新しいRAGプロンプト手法を提案する。
我々は,様々な質問応答ベンチマークにおいて,時間効率を同時に向上する手法の能力を実証する。
論文 参考訳(メタデータ) (2024-04-10T11:03:17Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - Compressing Context to Enhance Inference Efficiency of Large Language
Models [26.75216730927996]
本稿では,大規模言語モデル(LLM)の推論効率を向上させるための選択文脈法を提案する。
我々は、arXiv論文、ニュース記事、長い会話など、長いコンテキスト処理を必要とする共通のデータソースを用いて、アプローチをテストする。
実験の結果,Selective Contextはメモリコストを大幅に削減し,生成遅延を低減させることがわかった。
論文 参考訳(メタデータ) (2023-10-09T23:03:24Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。