Fugu-MT 論文翻訳(概要): Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching

論文の概要: Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching

arxiv url: http://arxiv.org/abs/2112.06671v1
Date: Mon, 13 Dec 2021 13:49:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-14 18:20:19.042643
Title: Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching
Title（参考訳）: 誤差制御近似鍵キャッシングによるディープラーニング分類の高速化
Authors: Alessandro Finamore, James Roberts, Massimo Gallo, Dario Rossi
Abstract要約: 我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
参考スコア（独自算出の注目度）: 72.50506500576746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Deep Learning (DL) technologies are a promising tool to solve networking problems that map to classification tasks, their computational complexity is still too high with respect to real-time traffic measurements requirements. To reduce the DL inference cost, we propose a novel caching paradigm, that we named approximate-key caching, which returns approximate results for lookups of selected input based on cached DL inference results. While approximate cache hits alleviate DL inference workload and increase the system throughput, they however introduce an approximation error. As such, we couple approximate-key caching with an error-correction principled algorithm, that we named auto-refresh. We analytically model our caching system performance for classic LRU and ideal caches, we perform a trace-driven evaluation of the expected performance, and we compare the benefits of our proposed approach with the state-of-the-art similarity caching -- testifying the practical interest of our proposal.
Abstract（参考訳）: ディープラーニング(DL)技術は、分類タスクにマップするネットワーク問題を解決するための有望なツールであるが、リアルタイムトラフィック測定の要求に対して、その計算複雑性は高すぎる。 dl推論コストを削減すべく,我々は,dl推論結果に基づいて選択した入力の検索結果の近似結果を返す近似鍵キャッシングという,新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。そこで,誤り訂正原理アルゴリズムを用いて近似鍵キャッシングを行い,auto-refreshと命名した。我々は古典的なLRUと理想的なキャッシュに対してキャッシュシステムのパフォーマンスを解析的にモデル化し、期待されるパフォーマンスをトレース駆動で評価し、提案手法の利点を最先端の類似性キャッシュと比較する。

関連論文リスト

PromptTea: Let Prompts Tell TeaCache the Optimal Threshold [1.0665410339553834]
一般的な加速戦略は、一定の間隔でキャッシング機構を介してモデル出力を再利用することである。本稿では,入力プロンプトから直接推定されるシーンの複雑さに基づいて,再利用しきい値を自動的に調整する手法であるPrompt-Complexity-Aware(PCA)キャッシングを提案する。
論文参考訳（メタデータ） (2025-07-09T10:53:05Z)
Efficient and Optimal No-Regret Caching under Partial Observation [11.537072761243344]
我々は、過去の要求のごく一部しか観測されない、より制限的な環境でキャッシュ問題を調査する。本稿では,従来のオンライン学習アルゴリズムであるFollow-the-Perturbed-Leaderに基づいて,サブ線形後悔を伴うランダム化キャッシュポリシーを提案する。
論文参考訳（メタデータ） (2025-03-04T16:21:33Z)
Adaptive Semantic Prompt Caching with VectorQ [78.59891542553179]
ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。既存のシステムは、キャッシュヒットの原因となる類似度スコアが十分に高いかどうかを分類するために静的しきい値に依存している。この1つの大きさのしきい値が、異なる埋め込みで不十分であることを示す。埋め込み固有のしきい値領域を学習するためのしきい値収束を保証するオンラインフレームワークであるVectorQを提案する。
論文参考訳（メタデータ） (2025-02-06T04:16:20Z)
InputSnatch: Stealing Input in LLM Services via Timing Side-Channel Attacks [9.748438507132207]
大規模言語モデル (LLM) には広範な知識と質問応答能力がある。キャッシュ共有メソッドは、キャッシュされた状態や、同じまたは同様の推論要求に対するレスポンスを再利用することで、効率を高めるために一般的に使用される。 LLMの推論において入力盗難を実行するための新しいタイミングベースのサイドチャネル攻撃を提案する。
論文参考訳（メタデータ） (2024-11-27T10:14:38Z)
HarmoniCa: Harmonizing Training and Inference for Better Feature Cache in Diffusion Transformer Acceleration [18.170285241800798]
本稿では,新しい学習ベースキャッシングフレームワークを用いて,学習と推論を調和させる新しい手法を提案する。従来の訓練パラダイムと比較して、新たに提案されたSDTは、認知プロセスの継続性を維持している。 IEPOは効率的なプロキシメカニズムを統合して、キャッシュされた機能の再使用による最終的な画像エラーを近似する。
論文参考訳（メタデータ） (2024-10-02T16:34:29Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文参考訳（メタデータ） (2024-06-29T02:40:28Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文参考訳（メタデータ） (2024-05-24T08:16:22Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems [10.52021139266752]
キャッシュ対応強化学習(CARL)は、リアルタイム計算とキャッシュによる推薦を協調的に最適化する手法である。 CARLは、結果キャッシュを考慮すると、ユーザのエンゲージメントを大幅に改善できる。 CARLはKwaiアプリで完全にローンチされ、1億人以上のユーザーにサービスを提供している。
論文参考訳（メタデータ） (2024-04-23T12:06:40Z)
No-Regret Caching with Noisy Request Estimates [12.603423174002254]
要求推定値がノイズである場合,従来のFPLの変種であるNoisy-Follow-the-Perturbed-Leader (NFPL)アルゴリズムを提案する。提案手法は,要求推定器の特定の条件下でのサブ線形後悔を有することを示す。
論文参考訳（メタデータ） (2023-09-05T08:57:35Z)
CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。 CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。 CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文参考訳（メタデータ） (2021-10-21T06:26:31Z)
Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文参考訳（メタデータ） (2021-01-18T22:13:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。