論文の概要: AlphaNet: Improved Training of Supernet with Alpha-Divergence
- arxiv url: http://arxiv.org/abs/2102.07954v1
- Date: Tue, 16 Feb 2021 04:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:24:00.830420
- Title: AlphaNet: Improved Training of Supernet with Alpha-Divergence
- Title(参考訳): AlphaNet:Alpha-Divergenceによるスーパーネットのトレーニング改善
- Authors: Dilin Wang, Chengyue Gong, Meng Li, Qiang Liu, Vikas Chandra
- Abstract要約: より汎用的なアルファダイバージェンスでスーパーネットトレーニングを改善することを提案する。
提案するアルファディバージェンスに基づくスーパーネットトレーニングを,スリムブルニューラルネットワークと重み共有NASの両方に適用する。
特に、発見されたモデルファミリーであるAlphaNetは、幅広いFLOPシステムにおいて、先行技術モデルよりも優れています。
- 参考スコア(独自算出の注目度): 28.171262066145616
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Weight-sharing neural architecture search (NAS) is an effective technique for
automating efficient neural architecture design. Weight-sharing NAS builds a
supernet that assembles all the architectures as its sub-networks and jointly
trains the supernet with the sub-networks. The success of weight-sharing NAS
heavily relies on distilling the knowledge of the supernet to the sub-networks.
However, we find that the widely used distillation divergence, i.e., KL
divergence, may lead to student sub-networks that over-estimate or
under-estimate the uncertainty of the teacher supernet, leading to inferior
performance of the sub-networks. In this work, we propose to improve the
supernet training with a more generalized alpha-divergence. By adaptively
selecting the alpha-divergence, we simultaneously prevent the over-estimation
or under-estimation of the uncertainty of the teacher model. We apply the
proposed alpha-divergence based supernet training to both slimmable neural
networks and weight-sharing NAS, and demonstrate significant improvements.
Specifically, our discovered model family, AlphaNet, outperforms prior-art
models on a wide range of FLOPs regimes, including BigNAS, Once-for-All
networks, FBNetV3, and AttentiveNAS. We achieve ImageNet top-1 accuracy of
80.0% with only 444 MFLOPs.
- Abstract(参考訳): 重み共有ニューラルアーキテクチャ検索(nas)は、効率的なニューラルアーキテクチャ設計を自動化する効果的な手法である。
重量共有NASは、サブネットワークとしてすべてのアーキテクチャを組み立て、サブネットワークとスーパーネットを共同トレーニングするスーパーネットを構築します。
重量共有NASの成功は、スーパーネットの知識をサブネットワークに蒸留することに大きく依存している。
しかし、広く使用されている蒸留発散、すなわちKL発散は教師スーパーネットの不確実性を過小評価または過小評価し、サブネットワークのパフォーマンスを低下させる学生サブネットワークにつながる可能性があります。
本研究では,より汎用的なアルファダイバージェンスを用いてスーパーネットトレーニングを改善することを提案する。
アルファダイバージェンスを適応的に選択することにより,教師モデルの不確かさの過大評価や過小評価を同時に防止する。
提案したアルファディバージェンスに基づくスーパーネットトレーニングを、スリムブルニューラルネットワークと重み付けNASの両方に適用し、大幅な改善を示す。
特に,発見されたモデルファミリであるalphanetは,bignas, once-for-all networks, fbnetv3, attentivenasなど,幅広いフロップシステムにおいて,先行技術モデルよりも優れています。
ImageNet Top-1の精度はわずか444 MFLOPで80.0%です。
関連論文リスト
- SalNAS: Efficient Saliency-prediction Neural Architecture Search with self-knowledge distillation [7.625269122161064]
近年の深部畳み込み型ニューラルネットワークの進歩により,サリエンシ予測の性能が大幅に向上した。
本稿では,2つのコントリビューションを持つ有能性予測のためのニューラルアーキテクチャ検索フレームワークを提案する。
自己KDを利用することで、SalNASは、ほとんどの評価ルーリックにおいて、他の最先端の精度予測モデルより優れている。
論文 参考訳(メタデータ) (2024-07-29T14:48:34Z) - DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions [121.05720140641189]
蒸留型ニューラルアーキテクチャ(DNA)技術を用いたモデル群を開発した。
提案するDNAモデルでは,アルゴリズムを用いてサブサーチ空間にのみアクセス可能な従来の手法とは対照的に,すべてのアーキテクチャ候補を評価できる。
当社のモデルでは,モバイルコンボリューションネットワークと小型ビジョントランスフォーマーにおいて,ImageNet上で78.9%,83.6%の最先端トップ1精度を実現している。
論文 参考訳(メタデータ) (2024-03-02T22:16:47Z) - Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts [55.470959564665705]
ウェイトシェアリングスーパーネットは、最先端のニューラルサーチフレームワークのパフォーマンス評価に不可欠である。
提案手法は,高速機械翻訳モデルのためのNASにおける最先端(SoTA)性能を実現する。
メモリ効率のよいタスク非依存のBERTモデルを構築するためにNASが優れている。
論文 参考訳(メタデータ) (2023-06-08T00:35:36Z) - Prior-Guided One-shot Neural Architecture Search [11.609732776776982]
我々は、スーパーネットのランキング相関を強化するために、プリエントガイドワンショットNAS(PGONAS)を提案する。
我々のPGONASはCVPR2022のスーパーネットトラックの3位にランクインしている。
論文 参考訳(メタデータ) (2022-06-27T14:19:56Z) - Evolutionary Neural Cascade Search across Supernetworks [68.8204255655161]
ENCAS - Evolutionary Neural Cascade Searchを紹介する。
ENCASは、複数の事前訓練されたスーパーネットを探索するために使用することができる。
我々は、一般的なコンピュータビジョンベンチマークでEMCASをテストする。
論文 参考訳(メタデータ) (2022-03-08T11:06:01Z) - Enabling NAS with Automated Super-Network Generation [60.72821429802335]
最近のニューラルアーキテクチャサーチ(NAS)ソリューションは、スーパーネットワークをトレーニングし、それから導出作業を行うという印象的な結果を生み出している。
本稿では,NAS用スーパーネットワークの自動生成のためのソフトウェアフレームワークであるBootstrapNASを紹介する。
論文 参考訳(メタデータ) (2021-12-20T21:45:48Z) - An Analysis of Super-Net Heuristics in Weight-Sharing NAS [70.57382341642418]
単純なランダム探索は,スーパーネットを適切に訓練した場合に,複雑なNASアルゴリズムと競合する性能が得られることを示す。
単純なランダム探索は,スーパーネットを適切に訓練した場合に,複雑なNASアルゴリズムと競合する性能が得られることを示す。
論文 参考訳(メタデータ) (2021-10-04T02:18:44Z) - Efficient Transfer Learning via Joint Adaptation of Network Architecture
and Weight [66.8543732597723]
近年のニューラルネットワーク探索(NAS)は,十分なネットワーク探索空間を確立することで伝達学習を支援する。
本稿では,2つのモジュールからなる新しいフレームワークを提案する。アーキテクチャトランスファーのためのニューラルアーキテクチャ探索モジュールと,ウェイトトランスファーのためのニューラルウェイト探索モジュールである。
これら2つのモジュールは、減らされたスーパーネットワークに基づいてターゲットタスクを探索するので、ソースタスクのみを訓練する必要がある。
論文 参考訳(メタデータ) (2021-05-19T08:58:04Z) - How Does Supernet Help in Neural Architecture Search? [3.8348281160758027]
我々は,NAS-Bench-101,NAS-Bench-201,DARTS-CIFAR10,DARTS-PTB,ProxylessNASの5つの探索空間を包括的に解析する。
ウェイトシェアリングはいくつかの検索スペースでうまく機能するが、他の検索スペースでは失敗する。
我々の研究は、将来のNAS研究者に、重量共有のパワーをより活用するよう促すことが期待されている。
論文 参考訳(メタデータ) (2020-10-16T08:07:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。