論文の概要: Improvements in Interlayer Pipelining of CNN Accelerators Using Genetic
Algorithms
- arxiv url: http://arxiv.org/abs/2311.12235v1
- Date: Mon, 20 Nov 2023 23:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:45:34.566913
- Title: Improvements in Interlayer Pipelining of CNN Accelerators Using Genetic
Algorithms
- Title(参考訳): 遺伝的アルゴリズムによるcnn加速器の層間配管の改善
- Authors: Mark Horeni, Siddharth Joshi
- Abstract要約: 我々は,CNNを対象とする層融合技術を開発し,グラフベースのトポロジソートに適用した遺伝的アルゴリズム(GA)を用いてチップ外データ通信を低減する。
その結果、SIMBAのようなモバイルアーキテクチャ上でのMobileNet-v3のエネルギ遅延製品(EDP)の1.8$times$エネルギー効率の向上と1.9$times$エネルギー遅延製品の改善が示されている。
- 参考スコア(独自算出の注目度): 0.229514708078516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Convolutional Neural Networks (CNNs) on edge platforms necessitates
efficient hardware acceleration. Any unnecessary data movement in such
accelerators can unacceptably degrade performance and efficiency. To address
this, we develop a layer fusion technique targeting CNNs, that reduces off-chip
data communication using a Genetic Algorithm (GA) applied to graph-based
topological sort. Results show a 1.8$\times$ increase in energy efficiency and
1.9$\times$ improvement in energy-delay product (EDP) for MobileNet-v3 on a
SIMBA-like mobile architecture. Our approach consistently improves workload
performance, averaging 1.4$\times$ improvement to EDP for SIMBA and
1.12$\times$ for Eyeriss.
- Abstract(参考訳): エッジプラットフォームへの畳み込みニューラルネットワーク(cnns)のデプロイは、効率的なハードウェアアクセラレーションを必要とする。
このようなアクセラレーターで不要なデータ移動は、パフォーマンスと効率を不可避的に低下させる可能性がある。
そこで我々は,CNNを対象とする層融合技術を開発し,グラフベースのトポロジソートに適用した遺伝的アルゴリズム(GA)を用いてチップ外データ通信を低減する。
その結果、SIMBAのようなモバイルアーキテクチャ上でのMobileNet-v3のエネルギー効率の1.8$\times$上昇と1.9$\times$改善を示す。
このアプローチは、ワークロードのパフォーマンスを一貫して改善し、平均1.4$\times$をsimbaで、1.4$\times$をeyerisで1.12$\times$で改善します。
関連論文リスト
- ApproxDARTS: Differentiable Neural Architecture Search with Approximate Multipliers [0.24578723416255746]
本稿では、DARTSと呼ばれる一般的な微分可能なニューラルアーキテクチャ探索手法を応用し、近似乗算器を活用可能なニューラルアーキテクチャ探索(NAS)手法であるApproxDARTSを提案する。
ApproxDARTSは10ドル未満のGPU時間で完全なアーキテクチャ検索を実行でき、畳み込み層に近似乗算器を含む競合畳み込みニューラルネットワーク(CNN)を生成する。
論文 参考訳(メタデータ) (2024-04-08T09:54:57Z) - Efficient Heterogeneous Graph Learning via Random Projection [65.65132884606072]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。
最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。
我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文 参考訳(メタデータ) (2023-10-23T01:25:44Z) - AdaptGear: Accelerating GNN Training via Adaptive Subgraph-Level Kernels
on GPUs [26.607519045805745]
グラフニューラルネットワーク(GNN)は、グラフ構造や機能から探索および学習するための強力なツールである。
先行研究では、GNNを加速するために入力グラフの空間性を探究する提案がなされており、これは全グラフレベルまたはブロックレベルの空間性フォーマットを使用している。
スパーシティのメリットとカーネルの実行効率のバランスが取れないことを示します。
本稿では,GNNのパフォーマンスを最適化する課題に対処する,AdaptGearと呼ばれる新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:22:12Z) - EcoFlow: Efficient Convolutional Dataflows for Low-Power Neural Network
Accelerators [12.223778147172107]
拡張畳み込み畳み込みは現代の畳み込みニューラルネットワーク(CNN)で広く使われている
これらのカーネルは、その高いメモリ強度、エクサスケールな計算要求、大きなエネルギー消費のために、現在の計算システムを強調している。
拡張および変換された畳み込みのための新しいデータフローとマッピングアルゴリズムであるEcoFlowを提案する。
論文 参考訳(メタデータ) (2022-02-04T18:48:36Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Exploiting Activation based Gradient Output Sparsity to Accelerate
Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。
しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文 参考訳(メタデータ) (2021-09-16T04:12:51Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Adaptive Filters and Aggregator Fusion for Efficient Graph Convolutions [11.769185588579488]
本稿では,アクセル実装に適した特性とともに,メモリ消費と遅延を低減した最先端性能を示す。
提案手法は,エッジ数に比例するメモリを必要とする競合手法とは対照的に,グラフ内の頂点数に比例するメモリを用いる。
GNNが表現力を大幅に高める技術であるアグリゲーター融合を提案し、標準のスパース行列乗算よりも19%の遅延がわずかに増加している。
論文 参考訳(メタデータ) (2021-04-03T20:54:36Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。