論文の概要: A Semi-Decoupled Approach to Fast and Optimal Hardware-Software
Co-Design of Neural Accelerators
- arxiv url: http://arxiv.org/abs/2203.13921v1
- Date: Fri, 25 Mar 2022 21:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 16:40:15.636519
- Title: A Semi-Decoupled Approach to Fast and Optimal Hardware-Software
Co-Design of Neural Accelerators
- Title(参考訳): ニューラル加速器の高速・最適ハードウェア協調設計への半分離的アプローチ
- Authors: Bingqian Lu, Zheyu Yan, Yiyu Shi, Shaolei Ren
- Abstract要約: ハードウェアとソフトウェアの共同設計は、フレキシブルなデザインスペースの利点を完全に享受し、ニューラルネットワークのパフォーマンスを最適化するために現れています。
このような共同設計は、全検索空間を事実上無限大に拡大し、重大な課題を提起する。
本稿では,設計空間全体の規模を桁違いに小さくするが,最適性を損なうことなく,Emphsemi-Decoupledアプローチを提案する。
- 参考スコア(独自算出の注目度): 22.69558355718029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In view of the performance limitations of fully-decoupled designs for neural
architectures and accelerators, hardware-software co-design has been emerging
to fully reap the benefits of flexible design spaces and optimize neural
network performance. Nonetheless, such co-design also enlarges the total search
space to practically infinity and presents substantial challenges. While the
prior studies have been focusing on improving the search efficiency (e.g., via
reinforcement learning), they commonly rely on co-searches over the entire
architecture-accelerator design space. In this paper, we propose a
\emph{semi}-decoupled approach to reduce the size of the total design space by
orders of magnitude, yet without losing optimality. We first perform neural
architecture search to obtain a small set of optimal architectures for one
accelerator candidate. Importantly, this is also the set of (close-to-)optimal
architectures for other accelerator designs based on the property that neural
architectures' ranking orders in terms of inference latency and energy
consumption on different accelerator designs are highly similar. Then, instead
of considering all the possible architectures, we optimize the accelerator
design only in combination with this small set of architectures, thus
significantly reducing the total search cost. We validate our approach by
conducting experiments on various architecture spaces for accelerator designs
with different dataflows. Our results highlight that we can obtain the optimal
design by only navigating over the reduced search space. The source code of
this work is at \url{https://github.com/Ren-Research/CoDesign}.
- Abstract(参考訳): ニューラルネットワークとアクセラレーターのための完全に分離された設計のパフォーマンスの限界を考えると、ハードウェアソフトウェアの共同設計はフレキシブルな設計空間の利点を完全に享受し、ニューラルネットワークのパフォーマンスを最適化するために現れている。
それでも、このような共同設計は検索空間を事実上無限大に拡大し、重大な課題を提起する。
以前の研究は、検索効率の向上(強化学習など)に重点を置いてきたが、アーキテクチャアクセラレータ設計の領域全体にわたる共同研究が一般的である。
本稿では,設計空間全体のサイズを1桁小さくする手法を提案するが,最適性を損なうことはない。
まず,1つのアクセラレータ候補に対する最適なアーキテクチャの小さなセットを得るために,ニューラルネットワーク探索を行う。
重要なことに、これは、異なる加速器設計における推論遅延とエネルギー消費の観点から、ニューラルネットワークのランク順が極めて類似しているという特性に基づく、他の加速器設計のための(近接した)最適アーキテクチャのセットでもある。
そして、すべての可能なアーキテクチャを考える代わりに、この小さなアーキテクチャセットと組み合わせてアクセラレータ設計を最適化することで、全体の検索コストを大幅に削減します。
データフローの異なるアクセラレーション設計のために,様々なアーキテクチャ空間で実験を行い,そのアプローチを検証する。
この結果から,探索空間を探索するだけで最適設計が達成できることが示唆された。
この作業のソースコードは \url{https://github.com/ren-research/codesign} にある。
関連論文リスト
- Neural Architecture Codesign for Fast Bragg Peak Analysis [1.7081438846690533]
我々は,高速かつリアルタイムなブラッグピーク解析のためのニューラルネットワーク符号の合理化のための自動パイプラインを開発した。
我々の手法では、ハードウェアコストを含むこれらのモデルを強化するために、ニューラルアーキテクチャ検索とAutoMLを使用し、よりハードウェア効率の良いニューラルアーキテクチャの発見に繋がる。
論文 参考訳(メタデータ) (2023-12-10T19:42:18Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z) - Does Form Follow Function? An Empirical Exploration of the Impact of
Deep Neural Network Architecture Design on Hardware-Specific Acceleration [76.35307867016336]
本研究では,深層ニューラルネットワーク設計が推論速度向上の程度に与える影響について検討する。
ハードウェア固有のアクセラレーションを活用することで平均推論速度が380%向上する一方で、マクロアーキテクチャ設計パターンによって推論速度が大幅に変化することを示した。
論文 参考訳(メタデータ) (2021-07-08T23:05:39Z) - A Construction Kit for Efficient Low Power Neural Network Accelerator
Designs [11.807678100385164]
この研究は、最近の研究で使用されているニューラルネットワークアクセラレータ最適化アプローチの調査を提供する。
建設キットとして最適化と定量的効果のリストを提示し、各ビルディングブロックの設計選択を個別に評価する。
論文 参考訳(メタデータ) (2021-06-24T07:53:56Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - NAAS: Neural Accelerator Architecture Search [16.934625310654553]
本稿では,ニューラルネットワークアーキテクチャ,アクセラレーションアーキテクチャ,コンパイラマッピングを全体検索するためのNAAS(Neural Accelerator Architecture Search)を提案する。
データ駆動のアプローチとして、NAASは人間のデザインであるEyerissを4.4倍のEDP削減、ImageNetの精度2.7%改善した。
論文 参考訳(メタデータ) (2021-05-27T15:56:41Z) - AutoSpace: Neural Architecture Search with Less Human Interference [84.42680793945007]
現在のニューラルネットワークアーキテクチャ検索(NAS)アルゴリズムは、ネットワーク構築のための検索空間を設計するための専門知識と努力を必要とします。
探索空間を最適なものに進化させる新しい微分可能な進化フレームワークであるAutoSpaceを提案する。
学習した検索空間では、最近のNASアルゴリズムの性能は、以前手作業で設計した空間に比べて大幅に改善できる。
論文 参考訳(メタデータ) (2021-03-22T13:28:56Z) - Apollo: Transferable Architecture Exploration [26.489275442359464]
我々はApolloと呼ばれるトランスファー可能なアーキテクチャ探索フレームワークを提案する。
提案手法は,ベースラインのブラックボックス最適化手法よりも,高報酬設計構成のサンプル効率が高いことを示す。
論文 参考訳(メタデータ) (2021-02-02T19:36:02Z) - Evolving Search Space for Neural Architecture Search [70.71153433676024]
最適化された検索空間サブセットを維持することにより,前回の取り組みから得られた結果を増幅するニューラルサーチ空間進化(NSE)方式を提案する。
我々は333万のFLOPでImageNet上で77.3%のトップ1リトレーニング精度を実現し、最先端の性能を得た。
遅延制約が適用された場合、我々の結果は、77.9%のTop-1再トレーニング精度を持つ、以前の最高のパフォーマンスのモバイルモデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-11-22T01:11:19Z) - Learned Hardware/Software Co-Design of Neural Accelerators [20.929918108940093]
ディープラーニングソフトウェアスタックとハードウェアアクセラレータは多様で広大な。
以前の作業では、ハードウェアアーキテクチャとは別途ソフトウェア最適化を検討し、検索スペースを効果的に削減した。
本稿では,ハードウェア/ソフトウェアの共同設計として,共同設計空間における望ましい点を自動的に識別することを目的としている。
論文 参考訳(メタデータ) (2020-10-05T15:12:52Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。