論文の概要: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated Edge
Inference
- arxiv url: http://arxiv.org/abs/2107.06960v1
- Date: Wed, 14 Jul 2021 19:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 13:50:48.640033
- Title: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated Edge
Inference
- Title(参考訳): 高速化エッジ推論のためのニューラルネットワークのメモリアウェアfusingとtiling
- Authors: Jackson Farley, Andreas Gerstlauer
- Abstract要約: 大きな畳み込み層を持つ機械学習ネットワークは、使用可能なメモリを容易に越えることができ、過度なスワップによってレイテンシが増加する。
プルーニングや量子化といった従来のメモリ削減技術はモデルの精度を低下させ、しばしば再トレーニングを必要とする。
分散パーティショニングアプローチは、ネットワークを小さな操作に分割することで、単一のデバイス上のメモリフットプリントを削減できる。
- 参考スコア(独自算出の注目度): 1.941730292017383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A rising research challenge is running costly machine learning (ML) networks
locally on resource-constrained edge devices. ML networks with large
convolutional layers can easily exceed available memory, increasing latency due
to excessive swapping. Previous memory reduction techniques such as pruning and
quantization reduce model accuracy and often require retraining. Alternatively,
distributed methods partition the convolutions into equivalent smaller
sub-computations, but the implementations introduce communication costs and
require a network of devices. However, a distributed partitioning approach can
also be used to run in a reduced memory footprint on a single device by
subdividing the network into smaller operations.
This report extends prior work on distributed partitioning using tiling and
fusing of convolutional layers into a memory-aware execution on a single
device. Our approach extends prior fusing strategies to allow for two groups of
convolutional layers that are fused and tiled independently. This approach
reduces overhead via data reuse, and reduces the memory footprint further. We
also propose a memory usage predictor coupled with a search algorithm to
provide fusing and tiling configurations for an arbitrary set of convolutional
layers. When applied to the YOLOv2 object detection network, results show that
our approach can run in less than half the memory, and with a speedup of up to
2.78 under severe memory constraints. Additionally, our algorithm will return a
configuration with a latency that is within 6% of the best latency measured in
a manual search.
- Abstract(参考訳): リソース制約のあるエッジデバイス上で、コストのかかる機械学習(ML)ネットワークをローカルで実行する、という研究課題が増えている。
大きな畳み込み層を持つmlネットワークは、容易に利用可能なメモリを超えることができ、過剰なスワップによるレイテンシが増加する。
プルーニングや量子化のような以前のメモリ削減技術はモデルの精度を低下させ、再トレーニングを必要とする。
あるいは、分散メソッドは畳み込みを同等の小さなサブ計算に分割するが、実装は通信コストを導入し、デバイスネットワークを必要とする。
しかし、分散パーティショニングアプローチは、ネットワークをより小さな操作に分割することによって、単一のデバイス上のメモリフットプリントを削減するためにも使用できる。
本報告では,ティアリングによる分散パーティショニングと畳み込みレイヤの融合を,単一のデバイス上でのメモリ認識実行に拡張する。
提案手法は, 融解とタイル化を独立に行う2つの畳み込み層を実現するために, 事前のfusing戦略を拡張する。
このアプローチはデータ再利用によるオーバーヘッドを低減し、メモリフットプリントをさらに削減します。
また、任意の畳み込み層に対して、メモリ使用率予測器と探索アルゴリズムを併用して、フラクションおよびタイリング構成を提供する。
YOLOv2オブジェクト検出ネットワークに適用すると,本手法はメモリの半分以下で動作し,メモリの厳しい制約下では最大2.78の高速化を実現している。
さらに、我々のアルゴリズムは、手動検索で測定された最高のレイテンシの6%以内のレイテンシで設定を返します。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Fused Depthwise Tiling for Memory Optimization in TinyML Deep Neural
Network Inference [1.6094180182513644]
ディープニューラルネットワーク(DNN)推論のためのメモリ最適化は、TinyMLの出現と高い関連性を得る。
DNN推論は、アクティベーションやその他の中間データを格納するために大きな中間実行時バッファを必要とするため、高いメモリ使用率につながる。
本稿では,DNNのメモリ最適化のためのFDT法を提案する。
論文 参考訳(メタデータ) (2023-03-31T08:26:17Z) - Rediscovering Hashed Random Projections for Efficient Quantization of
Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。
ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。
組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-13T10:53:00Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Generative Optimization Networks for Memory Efficient Data Generation [11.452816167207937]
本稿では,生成最適化ネットワーク(GON)と呼ばれる新しいフレームワークを提案する。
GONは単一の識別器ネットワークを使用し、入力空間で最適化を行い、新しいデータサンプルを生成し、トレーニング時間とメモリ消費の効果的な妥協を実現する。
我々のフレームワークでは、検出F1スコアが最大で32%、メモリ消費が58%、トレーニングオーバーヘッドが最先端と比較してわずか5%高いことが示されています。
論文 参考訳(メタデータ) (2021-10-06T16:54:33Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - Improving Memory Utilization in Convolutional Neural Network
Accelerators [16.340620299847384]
本稿では,アクティベーション層を重複させ,メモリをより効率的に利用するためのマッピング手法を提案する。
様々な実世界のオブジェクト検出器ネットワークによる実験により、提案されたマッピング技術により、メモリのアクティベーションを最大32.9%削減できることが示された。
より高解像度のノイズ除去ネットワークでは、活性化メモリの48.8%の節約を実現している。
論文 参考訳(メタデータ) (2020-07-20T09:34:36Z) - Splitting Convolutional Neural Network Structures for Efficient
Inference [11.031841470875571]
ネットワーク構造を、元のネットワークよりも少ないメモリを消費する小さな部分に分割する手法が提案されている。
この分割手法は、CIFAR10画像の分類のために、VGG16とResNet18のよく知られた2つのネットワーク構造でテストされている。
論文 参考訳(メタデータ) (2020-02-09T06:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。