論文の概要: Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching
- arxiv url: http://arxiv.org/abs/2112.06671v1
- Date: Mon, 13 Dec 2021 13:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 18:20:19.042643
- Title: Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching
- Title(参考訳): 誤差制御近似鍵キャッシングによるディープラーニング分類の高速化
- Authors: Alessandro Finamore, James Roberts, Massimo Gallo, Dario Rossi
- Abstract要約: 我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
- 参考スコア(独自算出の注目度): 72.50506500576746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Deep Learning (DL) technologies are a promising tool to solve
networking problems that map to classification tasks, their computational
complexity is still too high with respect to real-time traffic measurements
requirements. To reduce the DL inference cost, we propose a novel caching
paradigm, that we named approximate-key caching, which returns approximate
results for lookups of selected input based on cached DL inference results.
While approximate cache hits alleviate DL inference workload and increase the
system throughput, they however introduce an approximation error. As such, we
couple approximate-key caching with an error-correction principled algorithm,
that we named auto-refresh. We analytically model our caching system
performance for classic LRU and ideal caches, we perform a trace-driven
evaluation of the expected performance, and we compare the benefits of our
proposed approach with the state-of-the-art similarity caching -- testifying
the practical interest of our proposal.
- Abstract(参考訳): ディープラーニング(DL)技術は、分類タスクにマップするネットワーク問題を解決するための有望なツールであるが、リアルタイムトラフィック測定の要求に対して、その計算複雑性は高すぎる。
dl推論コストを削減すべく,我々は,dl推論結果に基づいて選択した入力の検索結果の近似結果を返す近似鍵キャッシングという,新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
そこで,誤り訂正原理アルゴリズムを用いて近似鍵キャッシングを行い,auto-refreshと命名した。
我々は古典的なLRUと理想的なキャッシュに対してキャッシュシステムのパフォーマンスを解析的にモデル化し、期待されるパフォーマンスをトレース駆動で評価し、提案手法の利点を最先端の類似性キャッシュと比較する。
関連論文リスト
- Adaptive Semantic Prompt Caching with VectorQ [78.59891542553179]
ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。
この1つの大きさの閾値は、異なるプロンプトで不十分であることを示す。
埋め込みの複雑さと不確実性に適応する埋め込み固有のしきい値領域を学習するためのフレームワークであるVectorQを提案する。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - InputSnatch: Stealing Input in LLM Services via Timing Side-Channel Attacks [9.748438507132207]
大規模言語モデル (LLM) には広範な知識と質問応答能力がある。
キャッシュ共有メソッドは、キャッシュされた状態や、同じまたは同様の推論要求に対するレスポンスを再利用することで、効率を高めるために一般的に使用される。
LLMの推論において入力盗難を実行するための新しいタイミングベースのサイドチャネル攻撃を提案する。
論文 参考訳(メタデータ) (2024-11-27T10:14:38Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。
評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文 参考訳(メタデータ) (2024-05-24T08:16:22Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems [10.52021139266752]
キャッシュ対応強化学習(CARL)は、リアルタイム計算とキャッシュによる推薦を協調的に最適化する手法である。
CARLは、結果キャッシュを考慮すると、ユーザのエンゲージメントを大幅に改善できる。
CARLはKwaiアプリで完全にローンチされ、1億人以上のユーザーにサービスを提供している。
論文 参考訳(メタデータ) (2024-04-23T12:06:40Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。
現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。
低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文 参考訳(メタデータ) (2021-01-18T22:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。