論文の概要: FlashMem: Supporting Modern DNN Workloads on Mobile with GPU Memory Hierarchy Optimizations
- arxiv url: http://arxiv.org/abs/2602.15379v1
- Date: Tue, 17 Feb 2026 06:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.995202
- Title: FlashMem: Supporting Modern DNN Workloads on Mobile with GPU Memory Hierarchy Optimizations
- Title(参考訳): FlashMem:GPUメモリ階層最適化によるモバイル上の最新のDNNワークロードのサポート
- Authors: Zhihao Shu, Md Musfiqur Rahman Sanim, Hangyu Zheng, Kunxiong Zhu, Miao Yin, Gagan Agrawal, Wei Niu,
- Abstract要約: FlashMemは、大規模で現代的なディープニューラルネットワークとマルチDNNワークロードを効率的に実行するように設計されたメモリストリーミングフレームワークである。
我々は、既存のフレームワークと比較して、FlashMemが2.0倍から8.4倍のメモリ削減と1.7倍から75.0倍のスピードアップを達成することを示した。
11モデルの結果、FlashMemは既存のフレームワークと比較して2.0倍から8.4倍のメモリ削減と1.7倍から75.0倍のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 10.92493656178845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing size and complexity of modern deep neural networks (DNNs) pose significant challenges for on-device inference on mobile GPUs, with limited memory and computational resources. Existing DNN acceleration frameworks primarily deploy a weight preloading strategy, where all model parameters are loaded into memory before execution on mobile GPUs. We posit that this approach is not adequate for modern DNN workloads that comprise very large model(s) and possibly execution of several distinct models in succession. In this work, we introduce FlashMem, a memory streaming framework designed to efficiently execute large-scale modern DNNs and multi-DNN workloads while minimizing memory consumption and reducing inference latency. Instead of fully preloading weights, FlashMem statically determines model loading schedules and dynamically streams them on demand, leveraging 2.5D texture memory to minimize data transformations and improve execution efficiency. Experimental results on 11 models demonstrate that FlashMem achieves 2.0x to 8.4x memory reduction and 1.7x to 75.0x speedup compared to existing frameworks, enabling efficient execution of large-scale models and multi-DNN support on resource-constrained mobile GPUs.
- Abstract(参考訳): 現代のディープニューラルネットワーク(DNN)のサイズと複雑さの増大は、メモリと計算リソースが制限されたモバイルGPU上でのデバイス上の推論に重大な課題をもたらす。
既存のDNNアクセラレーションフレームワークは、モバイルGPU上で実行する前に、すべてのモデルパラメータをメモリにロードする重み付きプリロード戦略を主に展開する。
このアプローチは、非常に大きなモデルを構成する現代のDNNワークロードや、いくつかの異なるモデルの連続実行に適していないと仮定する。
本稿では,大規模DNNとマルチDNNワークロードを効率的に実行し,メモリ消費を最小化し,推論レイテンシを低減するために設計された,メモリストリーミングフレームワークであるFlashMemを紹介する。
重量を完全にプリロードする代わりに、FlashMemは静的にモデルのロードスケジュールを決定し、必要に応じて動的にストリームし、2.5Dテクスチャメモリを活用してデータ変換を最小化し、実行効率を向上させる。
11モデルの実験結果によると、FlashMemは既存のフレームワークと比較して2.0xから8.4xのメモリ削減と1.7xから75.0xのスピードアップを実現しており、リソース制約のあるモバイルGPU上で大規模モデルの効率的な実行とマルチDNNサポートを実現している。
関連論文リスト
- MNN-LLM: A Generic Inference Engine for Fast Large Language Model Deployment on Mobile Devices [4.385815629175844]
MNN-LLMは、モバイルデバイスへの大規模言語モデルのデプロイを加速するために設計されたフレームワークである。
モデル量子化とDRAM-FlashハイブリッドストレージによるLCMのランタイム特性に対処する。
特に、MNN-LLMは、現在のLLM固有のフレームワークと比較して8.6倍の速度向上を実現している。
論文 参考訳(メタデータ) (2025-06-12T07:45:29Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - Demand Layering for Real-Time DNN Inference with Minimized Memory Usage [2.5768647103950357]
ディープニューラルネットワーク(DNN)モデルパラメータは、実行前にGPUメモリにロードされる。
本稿では,DNNの層間実行を利用したDemand Layeringを提案する。
私たちの実装では、96.5%のメモリ削減と、平均14.8%の遅延オーバーヘッドが示されています。
論文 参考訳(メタデータ) (2022-10-08T13:38:48Z) - Harmony: Overcoming the hurdles of GPU memory capacity to train massive
DNN models on commodity servers [13.620650014358413]
ディープニューラルネットワーク(DNN)は、過去10年間で、複雑さとサイズが指数関数的に増加した。
限られたリソースしかアクセスできない研究者にとって大きな課題の1つは、モデルサイズに比べてメモリ容量が限られていることである。
論文 参考訳(メタデータ) (2022-02-02T22:16:27Z) - Phantom: A High-Performance Computational Core for Sparse Convolutional
Neural Networks [3.198144010381572]
スパース畳み込みニューラルネットワーク(CNN)はここ数年で大きな注目を集めている。
モデルのサイズや計算を、密度の高いモデルに比べて大幅に削減することができる。
最近提案されたSCNN、Eyeriss v2、SparTenのようなスパースアクセラレーターは、パフォーマンス向上のために、重みとアクティベーションの両方の間隔という、両側または完全な間隔を積極的に活用している。
これらのアクセラレーターは非効率なマイクロアーキテクチャを持ち、パフォーマンスを制限し、非ユニットストライドの畳み込みと完全に接続された層をサポートしないか、または苦しむかのいずれかである。
論文 参考訳(メタデータ) (2021-11-09T08:43:03Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning
and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。
これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。
モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-22T03:18:23Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。