論文の概要: SimQ-NAS: Simultaneous Quantization Policy and Neural Architecture
Search
- arxiv url: http://arxiv.org/abs/2312.13301v1
- Date: Tue, 19 Dec 2023 22:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:26:26.263146
- Title: SimQ-NAS: Simultaneous Quantization Policy and Neural Architecture
Search
- Title(参考訳): SimQ-NAS: 同時量子化ポリシーとニューラルアーキテクチャ検索
- Authors: Sharath Nittur Sridhar, Maciej Szankin, Fang Chen, Sairam Sundaresan,
Anthony Sarah
- Abstract要約: 最近のワンショットニューラルネットワーク検索アルゴリズムは、特定のタスクに適したハードウェアに依存しないスーパーネットワークをトレーニングし、異なるハードウェアプラットフォームのための効率的なサブネットワークを抽出する。
我々は,光学習された予測器と組み合わせた多目的探索アルゴリズムを用いることで,サブネットワークアーキテクチャとそれに対応する量子化ポリシーの両方を効率的に探索できることを示す。
- 参考スコア(独自算出の注目度): 6.121126813817338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent one-shot Neural Architecture Search algorithms rely on training a
hardware-agnostic super-network tailored to a specific task and then extracting
efficient sub-networks for different hardware platforms. Popular approaches
separate the training of super-networks from the search for sub-networks, often
employing predictors to alleviate the computational overhead associated with
search. Additionally, certain methods also incorporate the quantization policy
within the search space. However, while the quantization policy search for
convolutional neural networks is well studied, the extension of these methods
to transformers and especially foundation models remains under-explored. In
this paper, we demonstrate that by using multi-objective search algorithms
paired with lightly trained predictors, we can efficiently search for both the
sub-network architecture and the corresponding quantization policy and
outperform their respective baselines across different performance objectives
such as accuracy, model size, and latency. Specifically, we demonstrate that
our approach performs well across both uni-modal (ViT and BERT) and multi-modal
(BEiT-3) transformer-based architectures as well as convolutional architectures
(ResNet). For certain networks, we demonstrate an improvement of up to $4.80x$
and $3.44x$ for latency and model size respectively, without degradation in
accuracy compared to the fully quantized INT8 baselines.
- Abstract(参考訳): 最近のワンショットニューラルネットワーク検索アルゴリズムは、特定のタスクに適したハードウェアに依存しないスーパーネットワークをトレーニングし、異なるハードウェアプラットフォームのための効率的なサブネットワークを抽出する。
一般的なアプローチは、スーパーネットワークのトレーニングをサブネットワークの検索から切り離し、しばしばサーチに関連する計算オーバーヘッドを軽減するために予測器を使用する。
さらに、ある方法は探索空間に量子化ポリシーを取り入れている。
しかしながら、畳み込みニューラルネットワークの量子化ポリシー探索はよく研究されているが、トランスフォーマーや特に基礎モデルへの拡張は未検討のままである。
本稿では,軽量に訓練された予測器と組み合わせた多目的探索アルゴリズムを用いることで,サブネットワークアーキテクチャと対応する量子化ポリシーの両方を効率的に探索し,精度,モデルサイズ,レイテンシといった異なる性能目標に対して,それぞれのベースラインを上回ることができることを示す。
具体的には,i-modal (ViT と BERT) と multi-modal (BEiT-3) のトランスフォーマーベースアーキテクチャと畳み込みアーキテクチャ (ResNet) の両方において,我々のアプローチが良好に動作することを示す。
特定のネットワークに対して、完全な量子化されたINT8ベースラインに比べて精度が劣化することなく、それぞれレイテンシとモデルサイズに対して最大4.80x$と3.44x$の改善を示す。
関連論文リスト
- OFA$^2$: A Multi-Objective Perspective for the Once-for-All Neural
Architecture Search [79.36688444492405]
once-for-All(OFA)は、異なるリソース制約を持つデバイスのための効率的なアーキテクチャを探索する問題に対処するために設計された、ニューラルネットワーク検索(NAS)フレームワークである。
我々は,探索段階を多目的最適化問題として明示的に考えることにより,効率の追求を一歩進めることを目指している。
論文 参考訳(メタデータ) (2023-03-23T21:30:29Z) - Dynamic Neural Network for Multi-Task Learning Searching across Diverse
Network Topologies [14.574399133024594]
多様なグラフトポロジを持つ複数のタスクに対して最適化された構造を探索する新しいMTLフレームワークを提案する。
我々は、トポロジ的に多様なタスク適応構造を構築するために、読み出し/読み出し層を備えたDAGベースの制限付き中央ネットワークを設計する。
論文 参考訳(メタデータ) (2023-03-13T05:01:50Z) - Tricks and Plugins to GBM on Images and Sequences [18.939336393665553]
本稿では,動的特徴選択とBoostCNNの利点を組み合わせるために,Deep Convolutional Neural Networks(BoostCNN)を高速化するアルゴリズムを提案する。
また,最小2乗の目的関数に基づいて,重み付けをディープラーニングアーキテクチャに組み込むアルゴリズムも提案する。
実験により,提案手法はいくつかのきめ細かい分類タスクのベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-03-01T21:59:00Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - A Progressive Sub-Network Searching Framework for Dynamic Inference [33.93841415140311]
本稿では、トレーニング可能なノイズランキング、チャネルグループ、微調整しきい値設定、サブネット再選択など、いくつかの効果的な手法を組み込んだプログレッシブサブネット探索フレームワークを提案する。
提案手法は,従来普及していたUniversally-Slimmable-Networkの4.4%と平均2.3%と,モデルサイズが同じであるImageNetデータセットと比較して,より優れた動的推論精度を実現する。
論文 参考訳(メタデータ) (2020-09-11T22:56:02Z) - DC-NAS: Divide-and-Conquer Neural Architecture Search [108.57785531758076]
本稿では,ディープ・ニューラル・アーキテクチャーを効果的かつ効率的に探索するためのディバイド・アンド・コンカ(DC)手法を提案する。
ImageNetデータセットで75.1%の精度を達成しており、これは同じ検索空間を使った最先端の手法よりも高い。
論文 参考訳(メタデータ) (2020-05-29T09:02:16Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - MTL-NAS: Task-Agnostic Neural Architecture Search towards
General-Purpose Multi-Task Learning [71.90902837008278]
汎用マルチタスク学習(GP-MTL)にニューラルアーキテクチャサーチ(NAS)を導入することを提案する。
異なるタスクの組み合わせに対応するため、GP-MTLネットワークを単一タスクのバックボーンに分割する。
また,探索されたアーキテクチャ間の性能ギャップを埋める単一ショット勾配に基づく探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-31T09:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。