Fugu-MT 論文翻訳(概要): CaMDN: Enhancing Cache Efficiency for Multi-tenant DNNs on Integrated NPUs

論文の概要: CaMDN: Enhancing Cache Efficiency for Multi-tenant DNNs on Integrated NPUs

arxiv url: http://arxiv.org/abs/2505.06625v1
Date: Sat, 10 May 2025 12:16:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:48.947105
Title: CaMDN: Enhancing Cache Efficiency for Multi-tenant DNNs on Integrated NPUs
Title（参考訳）: CaMDN: 統合NPU上でのマルチテナントDNNのキャッシュ効率向上
Authors: Tianhao Cai, Liang Wang, Limin Xiao, Meng Han, Zeyu Wang, Lin Sun, Xiaojian Liao,
Abstract要約: CaMDNはアーキテクチャスケジューリングの共同設計であり、統合NPU上でのマルチテナントDNNのキャッシュ効率を向上させる。以前の作業と比較して、CaMDNはメモリアクセスを平均33.4%削減し、2.56$times$(平均1.88$times$)までのモデルスピードアップを達成する。
参考スコア（独自算出の注目度）: 14.07641958782911
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid development of DNN applications, multi-tenant execution, where multiple DNNs are co-located on a single SoC, is becoming a prevailing trend. Although many methods are proposed in prior works to improve multi-tenant performance, the impact of shared cache is not well studied. This paper proposes CaMDN, an architecture-scheduling co-design to enhance cache efficiency for multi-tenant DNNs on integrated NPUs. Specifically, a lightweight architecture is proposed to support model-exclusive, NPU-controlled regions inside shared cache to eliminate unexpected cache contention. Moreover, a cache scheduling method is proposed to improve shared cache utilization. In particular, it includes a cache-aware mapping method for adaptability to the varying available cache capacity and a dynamic allocation algorithm to adjust the usage among co-located DNNs at runtime. Compared to prior works, CaMDN reduces the memory access by 33.4% on average and achieves a model speedup of up to 2.56$\times$ (1.88$\times$ on average).
Abstract（参考訳）: DNNアプリケーションの急速な開発に伴い、複数のDNNを1つのSoC上に同時配置するマルチテナント実行が主流となっている。マルチテナント性能向上のための先行研究では,多くの手法が提案されているが,共有キャッシュの影響は十分に研究されていない。統合NPU上でのマルチテナントDNNのキャッシュ効率を向上させるためのアーキテクチャスケジューリング協調設計であるCaMDNを提案する。具体的には,共有キャッシュ内のモデル排他的NPU制御領域をサポートし,予期せぬキャッシュ競合を回避する軽量アーキテクチャを提案する。さらに,共有キャッシュ利用を改善するため,キャッシュスケジューリング手法を提案する。特に、利用可能なキャッシュ容量に適応可能なキャッシュ対応マッピング方法と、実行時に同一位置のDNN間での使用量を調整するための動的アロケーションアルゴリズムが含まれている。以前の作業と比較して、CaMDNはメモリアクセスを平均33.4%削減し、2.56$\times$(平均1.88$\times$)までのモデルスピードアップを達成する。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
NVR: Vector Runahead on NPUs for Sparse Memory Access [22.34526438317734]
スパースDNNワークロードにおけるキャッシュミス問題に対処するために,NPUに適したプリフェッチ機構であるNPU Vector Runahead(NVR)を提案する。 NVRは汎用プロセッサのSOTAプリフェッチに比べて平均90%のキャッシュミス削減を実現している。評価の結果、16KBのキャッシュを拡張すれば、L2キャッシュサイズを同じ量に増やすよりもパフォーマンスが5倍向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T16:54:58Z)
CacheFocus: Dynamic Cache Re-Positioning for Efficient Retrieval-Augmented Generation [6.544043376474944]
LLM(Large Language Models)は、入力長と計算コストの制限により、様々な言語タスクを排他的に拡張する。既存のアプローチであるtextemdashは、これらの問題を部分的に緩和するが、しばしば追加のトレーニングを必要とするか、より長い入力でパフォーマンス劣化に悩まされる。 textbftextitCacheFocusは、長さの正規化を強化し、さらなるトレーニングを行わずに推論遅延を低減する方法である。
論文参考訳（メタデータ） (2025-02-16T12:33:16Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文参考訳（メタデータ） (2023-10-17T09:25:17Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
Caching Placement and Resource Allocation for Cache-Enabling UAV NOMA Networks [87.6031308969681]
本稿では,非直交多重アクセス(NOMA)をサポートした大規模アクセス機能を有する無人航空機(UAV)セルネットワークについて検討する。コンテンツ配信遅延最小化のための長期キャッシュ配置と資源配分最適化問題をマルコフ決定プロセス(MDP)として定式化する。そこで我々は,UAVがemphsoft $varepsilon$-greedy戦略を用いて行動の学習と選択を行い,行動と状態の最適な一致を探索する,Qラーニングに基づくキャッシュ配置とリソース割り当てアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-08-12T08:33:51Z)
Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2020-05-19T01:23:51Z)
Artificial Intelligence Assisted Collaborative Edge Caching in Small Cell Networks [19.605382256630538]
本稿では、エッジノードにおける異種キャッシュモデルを持つユーザの異種コンテンツ嗜好について考察する。複雑な制約問題を妥当な時間で効率的に解決する修正粒子群最適化(M-PSO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-16T10:39:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。