論文の概要: MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference
- arxiv url: http://arxiv.org/abs/2107.06960v2
- Date: Tue, 18 Jul 2023 20:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 18:43:37.009453
- Title: MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference
- Title(参考訳): mafat: 高速化エッジ推論のためのニューラルネットワークのメモリアウェアfusingとtiling
- Authors: Jackson Farley, Andreas Gerstlauer
- Abstract要約: 機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
- 参考スコア(独自算出の注目度): 1.7894377200944507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A rising research challenge is running costly machine learning (ML) networks
locally on resource-constrained edge devices. ML networks with large
convolutional layers can easily exceed available memory, increasing latency due
to excessive OS swapping. Previous memory reduction techniques such as pruning
and quantization reduce model accuracy and often require retraining.
Alternatively, distributed methods partition the convolutions into equivalent
smaller sub-computations, but the implementations introduce communication costs
and require a network of devices. Distributed partitioning approaches can,
however, also be used to run in a reduced memory footprint on a single device
by subdividing the network into smaller operations. In this paper, we extend
prior work on distributed partitioning into a memory-aware execution on a
single device. Our approach extends prior fusing strategies to allow for
multiple groups of convolutional layers that are fused and tiled independently.
This enables trading off overhead versus data reuse in order to specifically
reduces memory footprint. We propose a memory usage predictor coupled with a
search algorithm to provide optimized fusing and tiling configurations for an
arbitrary set of convolutional layers. When applied to the YOLOv2 object
detection network, results show that our approach can run in less than half the
memory, and with a speedup of up to 2.78 under severe memory constraints.
Additionally, our algorithm will return a configuration with a latency that is
within 6% of the best latency measured in a manual search.
- Abstract(参考訳): リソース制約のあるエッジデバイス上で、コストのかかる機械学習(ML)ネットワークをローカルで実行する、という研究課題が増えている。
大きな畳み込み層を持つMLネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
プルーニングや量子化のような以前のメモリ削減技術はモデルの精度を低下させ、再トレーニングを必要とする。
あるいは、分散メソッドは畳み込みを同等の小さなサブ計算に分割するが、実装は通信コストを導入し、デバイスネットワークを必要とする。
しかしながら、分散パーティショニングアプローチは、ネットワークをより小さな操作に分割することによって、単一のデバイス上のメモリフットプリントを削減するためにも使用できる。
本稿では,分散パーティショニングの先行作業を,単一のデバイス上でのメモリ認識実行に拡張する。
提案手法は,複数の畳み込み層が独立に融合・タイル化されるように,事前fusing戦略を拡張している。
これにより、メモリフットプリントを具体的に削減するために、オーバーヘッドとデータの再利用のトレードオフが可能になる。
本稿では,任意の畳み込み層に対して,メモリ使用率予測器と探索アルゴリズムを組み合わせることで,最適化されたフラクションとタイリング構成を提供する。
YOLOv2オブジェクト検出ネットワークに適用すると,本手法はメモリの半分以下で動作し,メモリの厳しい制約下では最大2.78の高速化を実現している。
さらに、我々のアルゴリズムは、手動検索で測定された最高のレイテンシの6%以内のレイテンシで設定を返します。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Fused Depthwise Tiling for Memory Optimization in TinyML Deep Neural
Network Inference [1.6094180182513644]
ディープニューラルネットワーク(DNN)推論のためのメモリ最適化は、TinyMLの出現と高い関連性を得る。
DNN推論は、アクティベーションやその他の中間データを格納するために大きな中間実行時バッファを必要とするため、高いメモリ使用率につながる。
本稿では,DNNのメモリ最適化のためのFDT法を提案する。
論文 参考訳(メタデータ) (2023-03-31T08:26:17Z) - Rediscovering Hashed Random Projections for Efficient Quantization of
Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。
ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。
組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-13T10:53:00Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Generative Optimization Networks for Memory Efficient Data Generation [11.452816167207937]
本稿では,生成最適化ネットワーク(GON)と呼ばれる新しいフレームワークを提案する。
GONは単一の識別器ネットワークを使用し、入力空間で最適化を行い、新しいデータサンプルを生成し、トレーニング時間とメモリ消費の効果的な妥協を実現する。
我々のフレームワークでは、検出F1スコアが最大で32%、メモリ消費が58%、トレーニングオーバーヘッドが最先端と比較してわずか5%高いことが示されています。
論文 参考訳(メタデータ) (2021-10-06T16:54:33Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - Improving Memory Utilization in Convolutional Neural Network
Accelerators [16.340620299847384]
本稿では,アクティベーション層を重複させ,メモリをより効率的に利用するためのマッピング手法を提案する。
様々な実世界のオブジェクト検出器ネットワークによる実験により、提案されたマッピング技術により、メモリのアクティベーションを最大32.9%削減できることが示された。
より高解像度のノイズ除去ネットワークでは、活性化メモリの48.8%の節約を実現している。
論文 参考訳(メタデータ) (2020-07-20T09:34:36Z) - Splitting Convolutional Neural Network Structures for Efficient
Inference [11.031841470875571]
ネットワーク構造を、元のネットワークよりも少ないメモリを消費する小さな部分に分割する手法が提案されている。
この分割手法は、CIFAR10画像の分類のために、VGG16とResNet18のよく知られた2つのネットワーク構造でテストされている。
論文 参考訳(メタデータ) (2020-02-09T06:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。