論文の概要: Improvements in Interlayer Pipelining of CNN Accelerators Using Genetic
Algorithms
- arxiv url: http://arxiv.org/abs/2311.12235v1
- Date: Mon, 20 Nov 2023 23:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:45:34.566913
- Title: Improvements in Interlayer Pipelining of CNN Accelerators Using Genetic
Algorithms
- Title(参考訳): 遺伝的アルゴリズムによるcnn加速器の層間配管の改善
- Authors: Mark Horeni, Siddharth Joshi
- Abstract要約: 我々は,CNNを対象とする層融合技術を開発し,グラフベースのトポロジソートに適用した遺伝的アルゴリズム(GA)を用いてチップ外データ通信を低減する。
その結果、SIMBAのようなモバイルアーキテクチャ上でのMobileNet-v3のエネルギ遅延製品(EDP)の1.8$times$エネルギー効率の向上と1.9$times$エネルギー遅延製品の改善が示されている。
- 参考スコア(独自算出の注目度): 0.229514708078516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Convolutional Neural Networks (CNNs) on edge platforms necessitates
efficient hardware acceleration. Any unnecessary data movement in such
accelerators can unacceptably degrade performance and efficiency. To address
this, we develop a layer fusion technique targeting CNNs, that reduces off-chip
data communication using a Genetic Algorithm (GA) applied to graph-based
topological sort. Results show a 1.8$\times$ increase in energy efficiency and
1.9$\times$ improvement in energy-delay product (EDP) for MobileNet-v3 on a
SIMBA-like mobile architecture. Our approach consistently improves workload
performance, averaging 1.4$\times$ improvement to EDP for SIMBA and
1.12$\times$ for Eyeriss.
- Abstract(参考訳): エッジプラットフォームへの畳み込みニューラルネットワーク(cnns)のデプロイは、効率的なハードウェアアクセラレーションを必要とする。
このようなアクセラレーターで不要なデータ移動は、パフォーマンスと効率を不可避的に低下させる可能性がある。
そこで我々は,CNNを対象とする層融合技術を開発し,グラフベースのトポロジソートに適用した遺伝的アルゴリズム(GA)を用いてチップ外データ通信を低減する。
その結果、SIMBAのようなモバイルアーキテクチャ上でのMobileNet-v3のエネルギー効率の1.8$\times$上昇と1.9$\times$改善を示す。
このアプローチは、ワークロードのパフォーマンスを一貫して改善し、平均1.4$\times$をsimbaで、1.4$\times$をeyerisで1.12$\times$で改善します。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - ApproxDARTS: Differentiable Neural Architecture Search with Approximate Multipliers [0.24578723416255746]
本稿では、DARTSと呼ばれる一般的な微分可能なニューラルアーキテクチャ探索手法を応用し、近似乗算器を活用可能なニューラルアーキテクチャ探索(NAS)手法であるApproxDARTSを提案する。
ApproxDARTSは10ドル未満のGPU時間で完全なアーキテクチャ検索を実行でき、畳み込み層に近似乗算器を含む競合畳み込みニューラルネットワーク(CNN)を生成する。
論文 参考訳(メタデータ) (2024-04-08T09:54:57Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - AdaptGear: Accelerating GNN Training via Adaptive Subgraph-Level Kernels
on GPUs [26.607519045805745]
グラフニューラルネットワーク(GNN)は、グラフ構造や機能から探索および学習するための強力なツールである。
先行研究では、GNNを加速するために入力グラフの空間性を探究する提案がなされており、これは全グラフレベルまたはブロックレベルの空間性フォーマットを使用している。
スパーシティのメリットとカーネルの実行効率のバランスが取れないことを示します。
本稿では,GNNのパフォーマンスを最適化する課題に対処する,AdaptGearと呼ばれる新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:22:12Z) - EcoFlow: Efficient Convolutional Dataflows for Low-Power Neural Network
Accelerators [12.223778147172107]
拡張畳み込み畳み込みは現代の畳み込みニューラルネットワーク(CNN)で広く使われている
これらのカーネルは、その高いメモリ強度、エクサスケールな計算要求、大きなエネルギー消費のために、現在の計算システムを強調している。
拡張および変換された畳み込みのための新しいデータフローとマッピングアルゴリズムであるEcoFlowを提案する。
論文 参考訳(メタデータ) (2022-02-04T18:48:36Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Adaptive Filters and Aggregator Fusion for Efficient Graph Convolutions [11.769185588579488]
本稿では,アクセル実装に適した特性とともに,メモリ消費と遅延を低減した最先端性能を示す。
提案手法は,エッジ数に比例するメモリを必要とする競合手法とは対照的に,グラフ内の頂点数に比例するメモリを用いる。
GNNが表現力を大幅に高める技術であるアグリゲーター融合を提案し、標準のスパース行列乗算よりも19%の遅延がわずかに増加している。
論文 参考訳(メタデータ) (2021-04-03T20:54:36Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。