Fugu-MT 論文翻訳(概要): ConvoCache: Smart Re-Use of Chatbot Responses

論文の概要: ConvoCache: Smart Re-Use of Chatbot Responses

arxiv url: http://arxiv.org/abs/2406.18133v1
Date: Wed, 26 Jun 2024 07:35:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 14:18:49.893238
Title: ConvoCache: Smart Re-Use of Chatbot Responses
Title（参考訳）: ConvoCache: チャットボット応答のスマートリユース
Authors: Conor Atkins, Ian Wood, Mohamed Ali Kaafar, Hassan Asghar, Nardine Basta, Michal Kepkowski,
Abstract要約: 遅くて高価な生成AIモデルの問題を解決する対話型キャッシュシステムであるConvoCacheを提案する。 ConvoCacheは過去にセマンティックに類似したプロンプトを見つけ、レスポンスを再利用する。 ConvoCacheは、90%のUniEvalコヒーレンスしきい値を適用し、平均遅延214msのキャッシュを使用するプロンプトの89%に対応することができる。
参考スコア（独自算出の注目度）: 0.9801548163304942
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present ConvoCache, a conversational caching system that solves the problem of slow and expensive generative AI models in spoken chatbots. ConvoCache finds a semantically similar prompt in the past and reuses the response. In this paper we evaluate ConvoCache on the DailyDialog dataset. We find that ConvoCache can apply a UniEval coherence threshold of 90% and respond to 89% of prompts using the cache with an average latency of 214ms, replacing LLM and voice synthesis that can take over 1s. To further reduce latency we test prefetching and find limited usefulness. Prefetching with 80% of a request leads to a 63% hit rate, and a drop in overall coherence. ConvoCache can be used with any chatbot to reduce costs by reducing usage of generative AI by up to 89%.
Abstract（参考訳）: 本稿では,会話型キャッシングシステムであるConvoCacheについて紹介する。 ConvoCacheは過去にセマンティックに類似したプロンプトを見つけ、レスポンスを再利用する。本稿では、DailyDialogデータセット上でConvoCacheを評価する。 ConvoCacheはUniEvalのコヒーレンス閾値90%を適用でき、平均遅延214msでキャッシュを使用するプロンプトの89%に応答し、LLMと1秒以上の音声合成を置き換えることができる。さらにレイテンシを低減するために、プレフェッチをテストし、限られた有用性を見つけます。リクエストの80%でプレフェッチすると、ヒット率は63%、全体的な一貫性は低下する。 ConvoCacheは、任意のチャットボットで使用することができ、生成AIの使用を最大89%削減することでコストを削減することができる。

関連論文リスト

ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models [33.729482204460815]
このデモでは、マルチターン対話のためのコンテキスト対応セマンティックキャッシュシステムであるContextCacheを紹介した。 ContextCacheは、2段階の検索アーキテクチャを使用し、まず現在のクエリ上でベクトルベースの検索を実行し、潜在的なマッチングを識別し、その後、正確なコンテキストマッチングのための自己認識機構を通じて、現在の対話表現と過去の対話表現を統合する。キャッシュされた応答は、直接LLM呼び出しの約10倍のレイテンシを示し、会話アプリケーションに対する計算コストの大幅な削減を可能にする。
論文参考訳（メタデータ） (2025-06-28T07:25:12Z)
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators [57.80264359636158]
WavRewardは、音声入力による音声対話システムのIQとEQを評価することができる報酬フィードバックモデルである。 ChatReward-30Kは、WavRewardのトレーニングに使用される好みのデータセットである。 WavRewardは、複数の音声対話シナリオで過去の最先端評価モデルより優れている。
論文参考訳（メタデータ） (2025-05-14T16:54:15Z)
Auditing Prompt Caching in Language Model APIs [77.02079451561718]
大規模言語モデル(LLM)における即時キャッシュによるプライバシリークについて検討する。 OpenAIを含む7つのAPIプロバイダのユーザ間でのグローバルキャッシュ共有を検出します。 OpenAIの埋め込みモデルがデコーダのみのトランスフォーマーであることの証拠が見つかりました。
論文参考訳（メタデータ） (2025-02-11T18:58:04Z)
Adaptive Semantic Prompt Caching with VectorQ [78.59891542553179]
ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。既存のシステムは、キャッシュヒットの原因となる類似度スコアが十分に高いかどうかを分類するために静的しきい値に依存している。この1つの大きさのしきい値が、異なる埋め込みで不十分であることを示す。埋め込み固有のしきい値領域を学習するためのしきい値収束を保証するオンラインフレームワークであるVectorQを提案する。
論文参考訳（メタデータ） (2025-02-06T04:16:20Z)
InstCache: A Predictive Cache for LLM Serving [9.878166964839512]
本稿では,命令整合 LLM によるユーザインストラクションの予測と,それを予測キャッシュ,いわゆる InstCache に格納することを提案する。実験の結果、InstCacheはLMSysデータセット上で最大51.34%のヒット率を達成でき、メモリコストは4.5GBに過ぎなかった。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching [0.0]
GPT Semantic Cacheは、インメモリストレージ(Redis)におけるクエリ埋め込みのセマンティックキャッシュを利用する方法である。ユーザクエリを格納することにより、セマンティックに類似した質問を効率よく識別し、大規模言語モデルに対する冗長なAPI呼び出しを伴わずに、事前生成された応答を検索できる。実験の結果、GPT Semantic CacheはさまざまなクエリカテゴリでAPI呼び出しを最大68.8%削減し、キャッシュヒット率は61.6%から68.8%に向上した。
論文参考訳（メタデータ） (2024-11-08T02:21:19Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文参考訳（メタデータ） (2024-05-24T08:16:22Z)
Efficient LLM Inference with Kcache [3.945956673130761]
大規模言語モデル(LLM)はAIアプリケーションに大きな影響を与えている。 KVキャッシュ技術は業界で最も広く使われている技術の一つである。本稿では,LLM 推論プロセスにおけるメモリボトルネック問題を軽減するため,新しい KCache 手法を提案する。
論文参考訳（メタデータ） (2024-04-28T03:11:42Z)
MeanCache: User-Centric Semantic Cache for Large Language Model Based Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。 MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文参考訳（メタデータ） (2024-03-05T06:23:50Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文参考訳（メタデータ） (2023-07-02T13:36:36Z)
Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文参考訳（メタデータ） (2022-03-29T14:31:06Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
ARCH: Efficient Adversarial Regularized Training with Caching [91.74682538906691]
逆正則化は、多くの自然言語処理タスクにおけるモデル一般化を改善することができる。本稿では,複数のエポック毎に摂動を発生・キャッシュする新たな逆正則化手法ARCHを提案する。提案手法をニューラルネットワーク翻訳と自然言語理解タスクのセットで評価する。
論文参考訳（メタデータ） (2021-09-15T02:05:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。