論文の概要: DNNFuser: Generative Pre-Trained Transformer as a Generalized Mapper for
Layer Fusion in DNN Accelerators
- arxiv url: http://arxiv.org/abs/2201.11218v1
- Date: Wed, 26 Jan 2022 22:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-29 03:16:59.977576
- Title: DNNFuser: Generative Pre-Trained Transformer as a Generalized Mapper for
Layer Fusion in DNN Accelerators
- Title(参考訳): DNNFuser:DNN加速器におけるレイヤー融合のための一般化マッパーとしての生成事前学習変換器
- Authors: Sheng-Chun Kao, Xiaoyu Huang, Tushar Krishna
- Abstract要約: 層間マップ空間(層間マップ空間)のマッパーはめったに議論されていない。
本稿では,この層融合マップ空間に着目したマッパーDNNFuserを提案する。
DNNFuserは66x-127倍高速で、高度に最適化された検索ベースのマッパーで見つかるソリューションと互換性のあるソリューションを推論できる。
- 参考スコア(独自算出の注目度): 4.17230158443064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataflow/mapping decides the compute and energy efficiency of DNN
accelerators. Many mappers have been proposed to tackle the intra-layer
map-space. However, mappers for inter-layer map-space (aka layer-fusion
map-space), have been rarely discussed. In this work, we propose a mapper,
DNNFuser, specifically focusing on this layer-fusion map-space. While existing
SOTA DNN mapping explorations rely on search-based mappers, this is the first
work, to the best of our knowledge, to propose a one-shot inference-based
mapper. We leverage a famous language model GPT as our DNN architecture to
learn layer-fusion optimization as a sequence modeling problem. Further, the
trained DNNFuser can generalize its knowledge and infer new solutions for
unseen conditions. Within one inference pass, DNNFuser can infer solutions with
compatible performance to the ones found by a highly optimized search-based
mapper while being 66x-127x faster.
- Abstract(参考訳): dataflow/mappingはdnnアクセラレータの計算とエネルギー効率を決定する。
層内マップスペースに取り組むために多くのマッパーが提案されている。
しかし,層間マップ空間(層間マップ空間)のマップパについてはほとんど議論されていない。
本研究では,この層融合マップ空間に着目したマッパーDNNFuserを提案する。
既存のsata dnnマッピング探索は、検索ベースのマッパーに依存しているが、我々の知る限りでは、ワンショット推論ベースのマッパーを提案する最初の作業である。
我々は、DNNアーキテクチャとして有名な言語モデルGPTを活用し、シーケンスモデリング問題として層融合最適化を学習する。
さらに、訓練されたDNNFuserは、その知識を一般化し、目に見えない条件に対する新しいソリューションを推論することができる。
1つの推論パス内では、DNNFuserは、高度に最適化された検索ベースのマッパーで見つかるものと互換性のあるソリューションを66x-127倍高速に推論することができる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - NeuraLUT: Hiding Neural Network Density in Boolean Synthesizable Functions [2.7086888205833968]
Field-Programmable Gate Array (FPGA)アクセラレータは、レイテンシとリソースクリティカルなDeep Neural Network (DNN)推論タスクの処理に成功している。
本稿では、ニューロンの境界を緩和し、サブネットワーク全体を単一のLUTにマッピングすることを提案する。
提案手法は,既知の遅延クリティカルタスク,ジェットサブストラクチャタグ,古典的コンピュータビジョンタスク,MNISTを用いた桁分類で検証する。
論文 参考訳(メタデータ) (2024-02-29T16:10:21Z) - Multicoated and Folded Graph Neural Networks with Strong Lottery Tickets [3.0894823679470087]
本稿では,アーキテクチャとパラメータの両面から検索空間を拡張するためのマルチステージ・フォールディング法とアンシャレッド・マスク法を提案する。
高空間性、競争性能、高メモリ効率を最大98.7%の削減で達成することにより、エネルギー効率の高いグラフ処理に適していることを示す。
論文 参考訳(メタデータ) (2023-12-06T02:16:44Z) - LSGNN: Towards General Graph Neural Network in Node Classification by
Local Similarity [59.41119013018377]
本稿では,ローカル類似性(LocalSim)を用いて,プラグイン・アンド・プレイモジュールとしても機能するノードレベルの重み付き融合を学習する。
そこで本研究では,より情報性の高いマルチホップ情報を抽出するための,新規かつ効率的な初期残留差分接続(IRDC)を提案する。
提案手法,すなわちローカル類似グラフニューラルネットワーク(LSGNN)は,ホモ親和性グラフとヘテロ親和性グラフの両方において,同等あるいは優れた最先端性能を提供できる。
論文 参考訳(メタデータ) (2023-05-07T09:06:11Z) - Demystifying Map Space Exploration for NPUs [4.817475305740601]
Map Space Explorationは、Deep Neural Network(DNN)モデルの最適化されたマッピングを見つける問題である。
我々は、異なるマッパーが活用する検索技術について、第一級のリンゴとアプリの比較を行う。
次に,既存のマッパーを拡張できる2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T17:58:45Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Bifrost: End-to-End Evaluation and Optimization of Reconfigurable DNN
Accelerators [0.0]
Bifrostは、再構成可能な推論アクセラレータの評価と最適化のためのエンドツーエンドフレームワークである。
我々は,ByfrostのSTONNEおよび他のツールに対する優位性を論じ,Byfrost を用いた MAERI および SIGMA アーキテクチャの評価を行った。
論文 参考訳(メタデータ) (2022-04-26T16:22:24Z) - Self Sparse Generative Adversarial Networks [73.590634413751]
GAN(Generative Adversarial Networks)は、敵対的トレーニングを通じてデータ分布を学習する監視されていない生成モデルである。
本論文では,パラメータ空間を小さくし,ゼロ勾配問題を軽減するSelf Sparse Generative Adversarial Network (Self-Sparse GAN)を提案する。
論文 参考訳(メタデータ) (2021-01-26T04:49:12Z) - Pathfinder Discovery Networks for Neural Message Passing [8.633430288397376]
Pathfinder Discovery Networks (PDN) は、多重ネットワーク上でメッセージパッシンググラフを共同で学習する手法である。
PDNは、各エッジの集約重みを誘導的に学習し、下流学習タスクに最適な結果をもたらすように最適化する。
論文 参考訳(メタデータ) (2020-10-24T11:28:57Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - Convolutional Networks with Dense Connectivity [59.30634544498946]
Dense Convolutional Network (DenseNet)を導入し、フィードフォワード方式で各レイヤを他のすべてのレイヤに接続する。
各レイヤについて、先行するすべてのレイヤのフィーチャーマップをインプットとして使用し、それ自身のフィーチャーマップをその後のすべてのレイヤへのインプットとして使用します。
提案したアーキテクチャを、4つの高度に競争力のあるオブジェクト認識ベンチマークタスクで評価する。
論文 参考訳(メタデータ) (2020-01-08T06:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。