論文の概要: NASH: Neural Architecture and Accelerator Search for Multiplication-Reduced Hybrid Models
- arxiv url: http://arxiv.org/abs/2409.04829v1
- Date: Sat, 7 Sep 2024 13:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:31:31.264982
- Title: NASH: Neural Architecture and Accelerator Search for Multiplication-Reduced Hybrid Models
- Title(参考訳): NASH: 乗算生成ハイブリッドモデルのためのニューラルアーキテクチャとアクセラレータ探索
- Authors: Yang Xu, Huihong Shi, Zhongfeng Wang,
- Abstract要約: NASHは、乗算還元ハイブリッドモデルのためのニューラルアーキテクチャとアクセラレータ検索フレームワークである。
そこで本研究では,学習前に有望なハイブリッドモデルの事前同定を行うため,ゼロショットの調整手法を提案する。
また,検索プロセスの合理化のために,粗大な検索も導入する。
- 参考スコア(独自算出の注目度): 6.349667343767052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The significant computational cost of multiplications hinders the deployment of deep neural networks (DNNs) on edge devices. While multiplication-free models offer enhanced hardware efficiency, they typically sacrifice accuracy. As a solution, multiplication-reduced hybrid models have emerged to combine the benefits of both approaches. Particularly, prior works, i.e., NASA and NASA-F, leverage Neural Architecture Search (NAS) to construct such hybrid models, enhancing hardware efficiency while maintaining accuracy. However, they either entail costly retraining or encounter gradient conflicts, limiting both search efficiency and accuracy. Additionally, they overlook the acceleration opportunity introduced by accelerator search, yielding sub-optimal hardware performance. To overcome these limitations, we propose NASH, a Neural architecture and Accelerator Search framework for multiplication-reduced Hybrid models. Specifically, as for NAS, we propose a tailored zero-shot metric to pre-identify promising hybrid models before training, enhancing search efficiency while alleviating gradient conflicts. Regarding accelerator search, we innovatively introduce coarse-to-fine search to streamline the search process. Furthermore, we seamlessly integrate these two levels of searches to unveil NASH, obtaining the optimal model and accelerator pairing. Experiments validate our effectiveness, e.g., when compared with the state-of-the-art multiplication-based system, we can achieve $\uparrow$$2.14\times$ throughput and $\uparrow$$2.01\times$ FPS with $\uparrow$$0.25\%$ accuracy on CIFAR-100, and $\uparrow$$1.40\times$ throughput and $\uparrow$$1.19\times$ FPS with $\uparrow$$0.56\%$ accuracy on Tiny-ImageNet. Codes are available at \url{https://github.com/xuyang527/NASH.}
- Abstract(参考訳): 乗算の大幅な計算コストは、エッジデバイスへのディープニューラルネットワーク(DNN)の展開を妨げる。
乗算不要のモデルではハードウェア効率が向上するが、通常は精度を犠牲にする。
解決策として、両方のアプローチの利点を組み合わせるために、乗算還元ハイブリッドモデルが出現した。
特に、NASAやNASA-Fといった先行研究では、ニューラルネットワークサーチ(NAS)を利用してハイブリッドモデルを構築し、精度を維持しながらハードウェア効率を向上させる。
しかし、それらはコストのかかる再訓練や勾配の衝突に遭遇し、探索効率と精度の両方を制限している。
さらに、アクセルサーチによってもたらされる加速の機会を見落とし、準最適ハードウェア性能を得る。
これらの制約を克服するために、乗算還元ハイブリッドモデルのためのニューラルアーキテクチャとアクセラレータ検索フレームワークであるNASHを提案する。
具体的には、NASについて、トレーニング前に有望なハイブリッドモデルを事前に同定し、勾配競合を緩和しながら探索効率を向上させるため、調整されたゼロショットメトリクスを提案する。
加速器探索については,探索プロセスの合理化を図った粗大な探索を革新的に導入する。
さらに,この2つの検索レベルをシームレスに統合してNASHを公開し,最適なモデルと加速器のペアリングを得る。
実験によって、最先端の乗算ベースのシステムと比較すると、$\uparrow$2.14\times$スループットと$\uparrow$2.01\times$FPS with $\uparrow$0.25\%$CIFAR-100、$\uparrow$1.40\times$スループットと$\uparrow$1.19\times$FPS with $\uparrow$0.56\%$Tiny-ImageNetが得られる。
コードは \url{https://github.com/xuyang527/NASH で公開されている。
※
関連論文リスト
- ETS: Efficient Tree Search for Inference-Time Scaling [61.553681244572914]
テストタイムの計算スケーリングにおいて有望なアプローチのひとつは、プロセス報酬モデルに対する検索である。
木探索過程における軌跡の多様性は、多様性の増大がさらなる探索を促進するため、探索の精度に影響を与える。
本稿では,冗長なトラジェクトリを抽出し,必要な多様なトラジェクトリを維持しながら,KVの共有を促進する効率的なツリー探索(ETS)を提案する。
論文 参考訳(メタデータ) (2025-02-19T09:30:38Z) - LUT-DLA: Lookup Table as Efficient Extreme Low-Bit Deep Learning Accelerator [11.167930856636161]
本稿では、ベクトル量子化を利用してニューラルネットワークモデルをLUTに変換するLUT-DLA(Look-Up Table (LUT) Deep Learning Accelerator Framework)を紹介する。
LUT-DLAは、それぞれ$1.4$$7.0times$と$1.5$$$146.1times$で、電力効率と面積効率の改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-01-18T05:27:25Z) - ApproxDARTS: Differentiable Neural Architecture Search with Approximate Multipliers [0.24578723416255746]
本稿では、DARTSと呼ばれる一般的な微分可能なニューラルアーキテクチャ探索手法を応用し、近似乗算器を活用可能なニューラルアーキテクチャ探索(NAS)手法であるApproxDARTSを提案する。
ApproxDARTSは10ドル未満のGPU時間で完全なアーキテクチャ検索を実行でき、畳み込み層に近似乗算器を含む競合畳み込みニューラルネットワーク(CNN)を生成する。
論文 参考訳(メタデータ) (2024-04-08T09:54:57Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Accurate, Low-latency, Efficient SAR Automatic Target Recognition on
FPGA [3.251765107970636]
合成開口レーダ(SAR)自動目標認識(ATR)はリモートセンシング画像認識の鍵となる技術である。
SAR ATRのための最先端の畳み込みニューラルネットワーク(CNN)は、エンハンハイ計算コストとエンハンラージメモリフットプリントに悩まされている。
本稿では,これらの問題に対処するため,FPGA 上でモデルアーキテクチャを包括的に設計する手法を提案する。
論文 参考訳(メタデータ) (2023-01-04T05:35:30Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [134.83964935755964]
ディープラーニングでは、異なる種類のディープネットワークは典型的に異なる補間を必要とし、複数のトライアル後に選択する必要がある。
本稿では,この問題を解消し,モデルトレーニング速度を継続的に改善するために,ADAtive Nesterov運動量変換器を提案する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - FNAS: Uncertainty-Aware Fast Neural Architecture Search [54.49650267859032]
強化学習(Reinforcement Learning, RL)に基づくニューラルアーキテクチャサーチ(NAS)は一般的に、収束性の向上を保証するが、巨大な計算資源の要求に悩まされる。
NASにおけるロールアウトプロセスとRLプロセスの収束を加速する汎用パイプラインを提案する。
Mobile Neural Architecture Search (MNAS)サーチスペースの実験では、提案するFast Neural Architecture Search (FNAS)が標準のRLベースのNASプロセスを10倍高速化することを示した。
論文 参考訳(メタデータ) (2021-05-25T06:32:52Z) - BossNAS: Exploring Hybrid CNN-transformers with Block-wisely
Self-supervised Neural Architecture Search [100.28980854978768]
BossNAS(Block-wisely Self-supervised Neural Architecture Search)の紹介
探索空間をブロックに分類し、アンサンブルブートストラッピングと呼ばれる新しい自己教師型トレーニングスキームを用いて各ブロックを個別に訓練する。
また,検索可能なダウンサンプリング位置を持つファブリック型cnnトランスフォーマ検索空間であるhytra search spaceを提案する。
論文 参考訳(メタデータ) (2021-03-23T10:05:58Z) - Searching for Fast Model Families on Datacenter Accelerators [33.28421782921072]
高速かつ高精度なCNNモデルファミリをDC加速器上での効率的な推論のために探索する。
本稿では,待ち時間と待ち時間の両方を最適化するLACS法を提案する。
我々のLACSは、ネットワークの深さが画像サイズやネットワーク幅よりもはるかに速く成長することを発見した。
論文 参考訳(メタデータ) (2021-02-10T18:15:40Z) - DDPNAS: Efficient Neural Architecture Search via Dynamic Distribution
Pruning [135.27931587381596]
DDPNASと呼ばれる効率よく統一されたNASフレームワークを提案する。
検索空間は動的に切断され,その分布はいくつかのエポック毎に更新される。
提案した効率的なネットワーク生成手法により,与えられた制約に対する最適なニューラルネットワークアーキテクチャを直接取得する。
論文 参考訳(メタデータ) (2019-05-28T06:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。