Fugu-MT 論文翻訳(概要): Improvements in Interlayer Pipelining of CNN Accelerators Using Genetic Algorithms

論文の概要: Improvements in Interlayer Pipelining of CNN Accelerators Using Genetic Algorithms

arxiv url: http://arxiv.org/abs/2311.12235v1
Date: Mon, 20 Nov 2023 23:24:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 02:45:34.566913
Title: Improvements in Interlayer Pipelining of CNN Accelerators Using Genetic Algorithms
Title（参考訳）: 遺伝的アルゴリズムによるcnn加速器の層間配管の改善
Authors: Mark Horeni, Siddharth Joshi
Abstract要約: 我々は,CNNを対象とする層融合技術を開発し,グラフベースのトポロジソートに適用した遺伝的アルゴリズム(GA)を用いてチップ外データ通信を低減する。その結果、SIMBAのようなモバイルアーキテクチャ上でのMobileNet-v3のエネルギ遅延製品(EDP)の1.8$times$エネルギー効率の向上と1.9$times$エネルギー遅延製品の改善が示されている。
参考スコア（独自算出の注目度）: 0.229514708078516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deploying Convolutional Neural Networks (CNNs) on edge platforms necessitates efficient hardware acceleration. Any unnecessary data movement in such accelerators can unacceptably degrade performance and efficiency. To address this, we develop a layer fusion technique targeting CNNs, that reduces off-chip data communication using a Genetic Algorithm (GA) applied to graph-based topological sort. Results show a 1.8$\times$ increase in energy efficiency and 1.9$\times$ improvement in energy-delay product (EDP) for MobileNet-v3 on a SIMBA-like mobile architecture. Our approach consistently improves workload performance, averaging 1.4$\times$ improvement to EDP for SIMBA and 1.12$\times$ for Eyeriss.
Abstract（参考訳）: エッジプラットフォームへの畳み込みニューラルネットワーク(cnns)のデプロイは、効率的なハードウェアアクセラレーションを必要とする。このようなアクセラレーターで不要なデータ移動は、パフォーマンスと効率を不可避的に低下させる可能性がある。そこで我々は,CNNを対象とする層融合技術を開発し,グラフベースのトポロジソートに適用した遺伝的アルゴリズム(GA)を用いてチップ外データ通信を低減する。その結果、SIMBAのようなモバイルアーキテクチャ上でのMobileNet-v3のエネルギー効率の1.8$\times$上昇と1.9$\times$改善を示す。このアプローチは、ワークロードのパフォーマンスを一貫して改善し、平均1.4$\times$をsimbaで、1.4$\times$をeyerisで1.12$\times$で改善します。

関連論文リスト

Accelerating Sparse Graph Neural Networks with Tensor Core Optimization [0.0]
グラフセンスネットワーク(GNN)は、ソーシャルネットワーク、バイオインフォマティクス、計算、レコメンデーションシステムなどの分野に広く応用されている。従来の計算手法は、GNNの性能要求を満たすには不十分である。最近の研究では、CoresとCoresを使った並列アクセラレーションが検討されているが、大きな課題が続いている。
論文参考訳（メタデータ） (2024-12-16T01:57:53Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文参考訳（メタデータ） (2024-10-07T05:04:13Z)
ApproxDARTS: Differentiable Neural Architecture Search with Approximate Multipliers [0.24578723416255746]
本稿では、DARTSと呼ばれる一般的な微分可能なニューラルアーキテクチャ探索手法を応用し、近似乗算器を活用可能なニューラルアーキテクチャ探索(NAS)手法であるApproxDARTSを提案する。 ApproxDARTSは10ドル未満のGPU時間で完全なアーキテクチャ検索を実行でき、畳み込み層に近似乗算器を含む競合畳み込みニューラルネットワーク(CNN)を生成する。
論文参考訳（メタデータ） (2024-04-08T09:54:57Z)
T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文参考訳（メタデータ） (2023-10-05T02:58:29Z)
AdaptGear: Accelerating GNN Training via Adaptive Subgraph-Level Kernels on GPUs [26.607519045805745]
グラフニューラルネットワーク(GNN)は、グラフ構造や機能から探索および学習するための強力なツールである。先行研究では、GNNを加速するために入力グラフの空間性を探究する提案がなされており、これは全グラフレベルまたはブロックレベルの空間性フォーマットを使用している。スパーシティのメリットとカーネルの実行効率のバランスが取れないことを示します。本稿では,GNNのパフォーマンスを最適化する課題に対処する,AdaptGearと呼ばれる新しいシステムを提案する。
論文参考訳（メタデータ） (2023-05-27T08:22:12Z)
EcoFlow: Efficient Convolutional Dataflows for Low-Power Neural Network Accelerators [12.223778147172107]
拡張畳み込み畳み込みは現代の畳み込みニューラルネットワーク(CNN)で広く使われているこれらのカーネルは、その高いメモリ強度、エクサスケールな計算要求、大きなエネルギー消費のために、現在の計算システムを強調している。拡張および変換された畳み込みのための新しいデータフローとマッピングアルゴリズムであるEcoFlowを提案する。
論文参考訳（メタデータ） (2022-02-04T18:48:36Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
Exploiting Activation based Gradient Output Sparsity to Accelerate Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文参考訳（メタデータ） (2021-09-16T04:12:51Z)
HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。 HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。 EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文参考訳（メタデータ） (2021-07-12T18:46:34Z)
Adaptive Filters and Aggregator Fusion for Efficient Graph Convolutions [11.769185588579488]
本稿では,アクセル実装に適した特性とともに,メモリ消費と遅延を低減した最先端性能を示す。提案手法は,エッジ数に比例するメモリを必要とする競合手法とは対照的に,グラフ内の頂点数に比例するメモリを用いる。 GNNが表現力を大幅に高める技術であるアグリゲーター融合を提案し、標準のスパース行列乗算よりも19%の遅延がわずかに増加している。
論文参考訳（メタデータ） (2021-04-03T20:54:36Z)
RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。 3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文参考訳（メタデータ） (2020-07-20T02:05:32Z)
SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文参考訳（メタデータ） (2020-05-07T12:12:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。