論文の概要: Training BatchNorm Only in Neural Architecture Search and Beyond
- arxiv url: http://arxiv.org/abs/2112.00265v1
- Date: Wed, 1 Dec 2021 04:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 02:08:36.249174
- Title: Training BatchNorm Only in Neural Architecture Search and Beyond
- Title(参考訳): BatchNormのトレーニングはニューラルネットワーク検索とそれ以上のもの
- Authors: Yichen Zhu, Jie Du, Yuqin Zhu, Yi Wang, Zhicai Ou, Feifei Feng and
Jian Tang
- Abstract要約: BatchNormのトレーニングが、スーパーネットトレーニング時間を短縮したパフォーマンスウェルアーキテクチャのみを見つけることができる理由を理解するための努力はない。
列車BNのみのスーパーネットは、他の演算子よりも畳み込みに有利であり、アーキテクチャ間の不公平な競合を引き起こすことを示す。
3つの視点からネットワークを評価するための新しい複合性能指標を提案する。
- 参考スコア(独自算出の注目度): 17.21663067385715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates the usage of batch normalization in neural
architecture search (NAS). Specifically, Frankle et al. find that training
BatchNorm only can achieve nontrivial performance. Furthermore, Chen et al.
claim that training BatchNorm only can speed up the training of the one-shot
NAS supernet over ten times. Critically, there is no effort to understand 1)
why training BatchNorm only can find the perform-well architectures with the
reduced supernet-training time, and 2) what is the difference between the
train-BN-only supernet and the standard-train supernet. We begin by showing
that the train-BN-only networks converge to the neural tangent kernel regime,
obtain the same training dynamics as train all parameters theoretically. Our
proof supports the claim to train BatchNorm only on supernet with less training
time. Then, we empirically disclose that train-BN-only supernet provides an
advantage on convolutions over other operators, cause unfair competition
between architectures. This is due to only the convolution operator being
attached with BatchNorm. Through experiments, we show that such unfairness
makes the search algorithm prone to select models with convolutions. To solve
this issue, we introduce fairness in the search space by placing a BatchNorm
layer on every operator. However, we observe that the performance predictor in
Chen et al. is inapplicable on the new search space. To this end, we propose a
novel composite performance indicator to evaluate networks from three
perspectives: expressivity, trainability, and uncertainty, derived from the
theoretical property of BatchNorm. We demonstrate the effectiveness of our
approach on multiple NAS-benchmarks (NAS-Bench101, NAS-Bench-201) and search
spaces (DARTS search space and MobileNet search space).
- Abstract(参考訳): 本研究では,ニューラルアーキテクチャサーチ(NAS)におけるバッチ正規化の利用について検討する。
特にFrankle氏らは、BatchNormのトレーニングは非自明なパフォーマンスしか達成できないと考えている。
さらにChenらは、BatchNormのトレーニングは1発のNASスーパーネットのトレーニングを10回以上スピードアップできると主張している。
批判的に 理解するための努力はありません
1) なぜBatchNormはスーパーネットトレーニング時間を短縮したパフォーマンスウェルアーキテクチャしか見つからないのか。
2) 列車BN専用スーパーネットと標準列車用スーパーネットの違いは何か。
まず、トレインBNのみのネットワークがニューラルネットワークカーネル体制に収束し、理論的に全てのパラメータをトレーニングするのと同じトレーニングダイナミクスを得ることを示す。
我々の証明は、トレーニング時間の少ないスーパーネットでのみBatchNormをトレーニングするという主張を支持します。
そして、列車BNのみのスーパーネットが他の演算子に対する畳み込みに有利であり、アーキテクチャ間の不公平な競合を引き起こすことを実証的に明らかにする。
これは、BatchNormにアタッチされている畳み込み演算子のみのためである。
実験により,このような不公平さにより,探索アルゴリズムが畳み込みのあるモデルを選択する傾向が示された。
この問題を解決するために,各演算子にBatchNorm層を配置することにより,探索空間の公平性を導入する。
しかし, chen等における性能予測は, 新たな検索領域では適用不可能である。
そこで本研究では,バッチノルムの理論的性質から,表現性,訓練性,不確実性という3つの視点からネットワークを評価する新しい複合性能指標を提案する。
本研究では,複数のNASベンチマーク(NAS-Bench101,NAS-Bench-201)と検索空間(DARTS検索空間とMobileNet検索空間)に対するアプローチの有効性を示す。
関連論文リスト
- Neural Architecture Search via Two Constant Shared Weights Initialisations [0.0]
本研究では,NAS-Bench-101,NAS-Bench-201,NAS-Bench-NLPベンチマークデータセット間で,列車セットの精度と高い相関性を示すゼロコスト指標を提案する。
提案手法は既存のNASアルゴリズムに簡単に組み込むことができ,1つのネットワークを評価するのに1秒程度の時間を要する。
論文 参考訳(メタデータ) (2023-02-09T02:25:38Z) - An Analysis of Super-Net Heuristics in Weight-Sharing NAS [70.57382341642418]
単純なランダム探索は,スーパーネットを適切に訓練した場合に,複雑なNASアルゴリズムと競合する性能が得られることを示す。
単純なランダム探索は,スーパーネットを適切に訓練した場合に,複雑なNASアルゴリズムと競合する性能が得られることを示す。
論文 参考訳(メタデータ) (2021-10-04T02:18:44Z) - Pi-NAS: Improving Neural Architecture Search by Reducing Supernet
Training Consistency Shift [128.32670289503025]
最近提案されたニューラルアーキテクチャサーチ (NAS) 手法は,スーパーネット上で数十億のアーキテクチャを共存させ,その潜在的な精度を推定する。
アーキテクチャの予測精度と実際の能力のランキング相関は誤りであり、既存のNAS手法のジレンマを引き起こす。
このランク付け相関問題は,特徴シフトやパラメータシフトを含む,スーパーネットトレーニングの整合性シフトに起因している。
この2つのシフトを、Pi-NASと呼ばれる非自明なスーパーネットPiモデルを用いて同時に解決する。
論文 参考訳(メタデータ) (2021-08-22T09:08:48Z) - BN-NAS: Neural Architecture Search with Batch Normalization [116.47802796784386]
本稿では,Batch Normalization(BN-NAS)を用いたニューラルアーキテクチャサーチ(BN-NAS)を提案し,ニューラルアーキテクチャサーチ(NAS)を高速化する。
BN-NASはNASにおけるモデルトレーニングと評価に必要な時間を著しく短縮することができる。
論文 参考訳(メタデータ) (2021-08-16T23:23:21Z) - BossNAS: Exploring Hybrid CNN-transformers with Block-wisely
Self-supervised Neural Architecture Search [100.28980854978768]
BossNAS(Block-wisely Self-supervised Neural Architecture Search)の紹介
探索空間をブロックに分類し、アンサンブルブートストラッピングと呼ばれる新しい自己教師型トレーニングスキームを用いて各ブロックを個別に訓練する。
また,検索可能なダウンサンプリング位置を持つファブリック型cnnトランスフォーマ検索空間であるhytra search spaceを提案する。
論文 参考訳(メタデータ) (2021-03-23T10:05:58Z) - Neural Architecture Search on ImageNet in Four GPU Hours: A
Theoretically Inspired Perspective [88.39981851247727]
トレーニングフリーニューラルアーキテクチャサーチ(TE-NAS)という新しいフレームワークを提案する。
TE-NASは、ニューラルネットワークカーネル(NTK)のスペクトルと入力空間内の線形領域の数を分析することによってアーキテクチャをランク付けする。
1) この2つの測定はニューラルネットワークのトレーサビリティと表現性を示し, (2) ネットワークのテスト精度と強く相関することを示した。
論文 参考訳(メタデータ) (2021-02-23T07:50:44Z) - Neural Architecture Search without Training [8.067283219068832]
本研究では,未学習ネットワークにおけるデータポイント間のアクティベーションの重複について検討する。
ネットワークのトレーニングされたパフォーマンスを示すのに有用な指標を、どのように提供できるかを動機付けます。
この測度を単純なアルゴリズムに組み込むことで、単一のGPU上で数秒のトレーニングをすることなく、強力なネットワークを検索できるのです。
論文 参考訳(メタデータ) (2020-06-08T14:53:56Z) - GreedyNAS: Towards Fast One-Shot NAS with Greedy Supernet [63.96959854429752]
GreedyNASは簡単に追跡でき、ImageNetデータセットの実験結果から、同じ検索空間とFLOPまたはレイテンシレベルにおいて、Top-1の精度が向上することが示された。
より大きなスペースを探索することで、GreedyNASは新たな最先端アーキテクチャも取得できます。
論文 参考訳(メタデータ) (2020-03-25T06:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。