論文の概要: Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching
- arxiv url: http://arxiv.org/abs/2112.06671v1
- Date: Mon, 13 Dec 2021 13:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 18:20:19.042643
- Title: Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching
- Title(参考訳): 誤差制御近似鍵キャッシングによるディープラーニング分類の高速化
- Authors: Alessandro Finamore, James Roberts, Massimo Gallo, Dario Rossi
- Abstract要約: 我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
- 参考スコア(独自算出の注目度): 72.50506500576746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Deep Learning (DL) technologies are a promising tool to solve
networking problems that map to classification tasks, their computational
complexity is still too high with respect to real-time traffic measurements
requirements. To reduce the DL inference cost, we propose a novel caching
paradigm, that we named approximate-key caching, which returns approximate
results for lookups of selected input based on cached DL inference results.
While approximate cache hits alleviate DL inference workload and increase the
system throughput, they however introduce an approximation error. As such, we
couple approximate-key caching with an error-correction principled algorithm,
that we named auto-refresh. We analytically model our caching system
performance for classic LRU and ideal caches, we perform a trace-driven
evaluation of the expected performance, and we compare the benefits of our
proposed approach with the state-of-the-art similarity caching -- testifying
the practical interest of our proposal.
- Abstract(参考訳): ディープラーニング(DL)技術は、分類タスクにマップするネットワーク問題を解決するための有望なツールであるが、リアルタイムトラフィック測定の要求に対して、その計算複雑性は高すぎる。
dl推論コストを削減すべく,我々は,dl推論結果に基づいて選択した入力の検索結果の近似結果を返す近似鍵キャッシングという,新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
そこで,誤り訂正原理アルゴリズムを用いて近似鍵キャッシングを行い,auto-refreshと命名した。
我々は古典的なLRUと理想的なキャッシュに対してキャッシュシステムのパフォーマンスを解析的にモデル化し、期待されるパフォーマンスをトレース駆動で評価し、提案手法の利点を最先端の類似性キャッシュと比較する。
関連論文リスト
- HarmoniCa: Harmonizing Training and Inference for Better Feature Cache in Diffusion Transformer Acceleration [18.170285241800798]
本稿では,新しい学習ベースキャッシングフレームワークを用いて,学習と推論を調和させる新しい手法を提案する。
従来の訓練パラダイムと比較して、新たに提案されたSDTは、認知プロセスの継続性を維持している。
IEPOは効率的なプロキシメカニズムを統合して、キャッシュされた機能の再使用による最終的な画像エラーを近似する。
論文 参考訳(メタデータ) (2024-10-02T16:34:29Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。
評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文 参考訳(メタデータ) (2024-05-24T08:16:22Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems [10.52021139266752]
キャッシュ対応強化学習(CARL)は、リアルタイム計算とキャッシュによる推薦を協調的に最適化する手法である。
CARLは、結果キャッシュを考慮すると、ユーザのエンゲージメントを大幅に改善できる。
CARLはKwaiアプリで完全にローンチされ、1億人以上のユーザーにサービスを提供している。
論文 参考訳(メタデータ) (2024-04-23T12:06:40Z) - No-Regret Caching with Noisy Request Estimates [12.603423174002254]
要求推定値がノイズである場合,従来のFPLの変種であるNoisy-Follow-the-Perturbed-Leader (NFPL)アルゴリズムを提案する。
提案手法は,要求推定器の特定の条件下でのサブ線形後悔を有することを示す。
論文 参考訳(メタデータ) (2023-09-05T08:57:35Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。
現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。
低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文 参考訳(メタデータ) (2021-01-18T22:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。