Fugu-MT 論文翻訳(概要): AlphaNet: Improved Training of Supernet with Alpha-Divergence

論文の概要: AlphaNet: Improved Training of Supernet with Alpha-Divergence

arxiv url: http://arxiv.org/abs/2102.07954v1
Date: Tue, 16 Feb 2021 04:23:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-17 15:24:00.830420
Title: AlphaNet: Improved Training of Supernet with Alpha-Divergence
Title（参考訳）: AlphaNet:Alpha-Divergenceによるスーパーネットのトレーニング改善
Authors: Dilin Wang, Chengyue Gong, Meng Li, Qiang Liu, Vikas Chandra
Abstract要約: より汎用的なアルファダイバージェンスでスーパーネットトレーニングを改善することを提案する。提案するアルファディバージェンスに基づくスーパーネットトレーニングを,スリムブルニューラルネットワークと重み共有NASの両方に適用する。特に、発見されたモデルファミリーであるAlphaNetは、幅広いFLOPシステムにおいて、先行技術モデルよりも優れています。
参考スコア（独自算出の注目度）: 28.171262066145616
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Weight-sharing neural architecture search (NAS) is an effective technique for automating efficient neural architecture design. Weight-sharing NAS builds a supernet that assembles all the architectures as its sub-networks and jointly trains the supernet with the sub-networks. The success of weight-sharing NAS heavily relies on distilling the knowledge of the supernet to the sub-networks. However, we find that the widely used distillation divergence, i.e., KL divergence, may lead to student sub-networks that over-estimate or under-estimate the uncertainty of the teacher supernet, leading to inferior performance of the sub-networks. In this work, we propose to improve the supernet training with a more generalized alpha-divergence. By adaptively selecting the alpha-divergence, we simultaneously prevent the over-estimation or under-estimation of the uncertainty of the teacher model. We apply the proposed alpha-divergence based supernet training to both slimmable neural networks and weight-sharing NAS, and demonstrate significant improvements. Specifically, our discovered model family, AlphaNet, outperforms prior-art models on a wide range of FLOPs regimes, including BigNAS, Once-for-All networks, FBNetV3, and AttentiveNAS. We achieve ImageNet top-1 accuracy of 80.0% with only 444 MFLOPs.
Abstract（参考訳）: 重み共有ニューラルアーキテクチャ検索(nas)は、効率的なニューラルアーキテクチャ設計を自動化する効果的な手法である。重量共有NASは、サブネットワークとしてすべてのアーキテクチャを組み立て、サブネットワークとスーパーネットを共同トレーニングするスーパーネットを構築します。重量共有NASの成功は、スーパーネットの知識をサブネットワークに蒸留することに大きく依存している。しかし、広く使用されている蒸留発散、すなわちKL発散は教師スーパーネットの不確実性を過小評価または過小評価し、サブネットワークのパフォーマンスを低下させる学生サブネットワークにつながる可能性があります。本研究では,より汎用的なアルファダイバージェンスを用いてスーパーネットトレーニングを改善することを提案する。アルファダイバージェンスを適応的に選択することにより,教師モデルの不確かさの過大評価や過小評価を同時に防止する。提案したアルファディバージェンスに基づくスーパーネットトレーニングを、スリムブルニューラルネットワークと重み付けNASの両方に適用し、大幅な改善を示す。特に,発見されたモデルファミリであるalphanetは,bignas, once-for-all networks, fbnetv3, attentivenasなど,幅広いフロップシステムにおいて,先行技術モデルよりも優れています。 ImageNet Top-1の精度はわずか444 MFLOPで80.0%です。

関連論文リスト

SalNAS: Efficient Saliency-prediction Neural Architecture Search with self-knowledge distillation [7.625269122161064]
近年の深部畳み込み型ニューラルネットワークの進歩により,サリエンシ予測の性能が大幅に向上した。本稿では,2つのコントリビューションを持つ有能性予測のためのニューラルアーキテクチャ検索フレームワークを提案する。自己KDを利用することで、SalNASは、ほとんどの評価ルーリックにおいて、他の最先端の精度予測モデルより優れている。
論文参考訳（メタデータ） (2024-07-29T14:48:34Z)
DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions [121.05720140641189]
蒸留型ニューラルアーキテクチャ(DNA)技術を用いたモデル群を開発した。提案するDNAモデルでは,アルゴリズムを用いてサブサーチ空間にのみアクセス可能な従来の手法とは対照的に,すべてのアーキテクチャ候補を評価できる。当社のモデルでは,モバイルコンボリューションネットワークと小型ビジョントランスフォーマーにおいて,ImageNet上で78.9%,83.6%の最先端トップ1精度を実現している。
論文参考訳（メタデータ） (2024-03-02T22:16:47Z)
Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts [55.470959564665705]
ウェイトシェアリングスーパーネットは、最先端のニューラルサーチフレームワークのパフォーマンス評価に不可欠である。提案手法は,高速機械翻訳モデルのためのNASにおける最先端(SoTA)性能を実現する。メモリ効率のよいタスク非依存のBERTモデルを構築するためにNASが優れている。
論文参考訳（メタデータ） (2023-06-08T00:35:36Z)
Prior-Guided One-shot Neural Architecture Search [11.609732776776982]
我々は、スーパーネットのランキング相関を強化するために、プリエントガイドワンショットNAS(PGONAS)を提案する。我々のPGONASはCVPR2022のスーパーネットトラックの3位にランクインしている。
論文参考訳（メタデータ） (2022-06-27T14:19:56Z)
Evolutionary Neural Cascade Search across Supernetworks [68.8204255655161]
ENCAS - Evolutionary Neural Cascade Searchを紹介する。 ENCASは、複数の事前訓練されたスーパーネットを探索するために使用することができる。我々は、一般的なコンピュータビジョンベンチマークでEMCASをテストする。
論文参考訳（メタデータ） (2022-03-08T11:06:01Z)
Enabling NAS with Automated Super-Network Generation [60.72821429802335]
最近のニューラルアーキテクチャサーチ(NAS)ソリューションは、スーパーネットワークをトレーニングし、それから導出作業を行うという印象的な結果を生み出している。本稿では,NAS用スーパーネットワークの自動生成のためのソフトウェアフレームワークであるBootstrapNASを紹介する。
論文参考訳（メタデータ） (2021-12-20T21:45:48Z)
An Analysis of Super-Net Heuristics in Weight-Sharing NAS [70.57382341642418]
単純なランダム探索は,スーパーネットを適切に訓練した場合に,複雑なNASアルゴリズムと競合する性能が得られることを示す。単純なランダム探索は,スーパーネットを適切に訓練した場合に,複雑なNASアルゴリズムと競合する性能が得られることを示す。
論文参考訳（メタデータ） (2021-10-04T02:18:44Z)
Efficient Transfer Learning via Joint Adaptation of Network Architecture and Weight [66.8543732597723]
近年のニューラルネットワーク探索(NAS)は,十分なネットワーク探索空間を確立することで伝達学習を支援する。本稿では,2つのモジュールからなる新しいフレームワークを提案する。アーキテクチャトランスファーのためのニューラルアーキテクチャ探索モジュールと,ウェイトトランスファーのためのニューラルウェイト探索モジュールである。これら2つのモジュールは、減らされたスーパーネットワークに基づいてターゲットタスクを探索するので、ソースタスクのみを訓練する必要がある。
論文参考訳（メタデータ） (2021-05-19T08:58:04Z)
How Does Supernet Help in Neural Architecture Search? [3.8348281160758027]
我々は,NAS-Bench-101,NAS-Bench-201,DARTS-CIFAR10,DARTS-PTB,ProxylessNASの5つの探索空間を包括的に解析する。ウェイトシェアリングはいくつかの検索スペースでうまく機能するが、他の検索スペースでは失敗する。我々の研究は、将来のNAS研究者に、重量共有のパワーをより活用するよう促すことが期待されている。
論文参考訳（メタデータ） (2020-10-16T08:07:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。