論文の概要: BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage
Models
- arxiv url: http://arxiv.org/abs/2003.11142v3
- Date: Fri, 17 Jul 2020 02:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:27:02.358065
- Title: BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage
Models
- Title(参考訳): BigNAS: 大きな単一ステージモデルによるニューラルネットワーク検索のスケールアップ
- Authors: Jiahui Yu, Pengchong Jin, Hanxiao Liu, Gabriel Bender, Pieter-Jan
Kindermans, Mingxing Tan, Thomas Huang, Xiaodan Song, Ruoming Pang, Quoc Le
- Abstract要約: 予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。
発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
- 参考スコア(独自算出の注目度): 59.95091850331499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural architecture search (NAS) has shown promising results discovering
models that are both accurate and fast. For NAS, training a one-shot model has
become a popular strategy to rank the relative quality of different
architectures (child models) using a single set of shared weights. However,
while one-shot model weights can effectively rank different network
architectures, the absolute accuracies from these shared weights are typically
far below those obtained from stand-alone training. To compensate, existing
methods assume that the weights must be retrained, finetuned, or otherwise
post-processed after the search is completed. These steps significantly
increase the compute requirements and complexity of the architecture search and
model deployment. In this work, we propose BigNAS, an approach that challenges
the conventional wisdom that post-processing of the weights is necessary to get
good prediction accuracies. Without extra retraining or post-processing steps,
we are able to train a single set of shared weights on ImageNet and use these
weights to obtain child models whose sizes range from 200 to 1000 MFLOPs. Our
discovered model family, BigNASModels, achieve top-1 accuracies ranging from
76.5% to 80.9%, surpassing state-of-the-art models in this range including
EfficientNets and Once-for-All networks without extra retraining or
post-processing. We present ablative study and analysis to further understand
the proposed BigNASModels.
- Abstract(参考訳): neural architecture search (nas)は、正確かつ高速なモデルを発見する有望な結果を示している。
NASにとって、ワンショットモデルのトレーニングは、単一の共有重みセットを使用して異なるアーキテクチャ(児童モデル)の相対的な品質をランク付けする一般的な戦略となっている。
しかしながら、ワンショットモデルウェイトは、異なるネットワークアーキテクチャを効果的にランク付けすることができるが、これらの共有ウェイトからの絶対精度は、スタンドアローントレーニングから得られるものよりもはるかに低い。
補うために、既存の手法では、重み付けは、検索が完了した後に再訓練、微調整、または後処理されなければならないと仮定している。
これらのステップは、アーキテクチャ検索とモデル展開の計算要求と複雑さを著しく増加させます。
本研究では,重みの事後処理が適切な予測精度を得るために必要である,従来の知恵に挑戦するアプローチであるBigNASを提案する。
余分なリトレーニングや後処理のステップがなければ、imagenet上で単一の共有重みをトレーニングし、これらの重みを使って200から1000mflopsの子供モデルを得ることができます。
発見されたモデルファミリであるBigNASModelsは76.5%から80.9%の範囲でトップ1のアキュラティを達成し、EfficientNets や Once-for-All ネットワークなど最先端のモデルを上回った。
提案するBigNASModelの理解を深めるために,Ablative study and analysisを提案する。
関連論文リスト
- Representing Model Weights with Language using Tree Experts [39.90685550999956]
本稿では,モデル重みと言語の両方を組み込んだ共同空間内のモデルを表現することを学ぶ。
Probing Experts (ProbeX) は理論的に動機づけられた軽量な探査手法である。
以上の結果から, ProbeX は大規模モデルの重みを共有重み付き埋め込み空間に効果的にマッピングできることが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:17:09Z) - DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions [121.05720140641189]
蒸留型ニューラルアーキテクチャ(DNA)技術を用いたモデル群を開発した。
提案するDNAモデルでは,アルゴリズムを用いてサブサーチ空間にのみアクセス可能な従来の手法とは対照的に,すべてのアーキテクチャ候補を評価できる。
当社のモデルでは,モバイルコンボリューションネットワークと小型ビジョントランスフォーマーにおいて,ImageNet上で78.9%,83.6%の最先端トップ1精度を実現している。
論文 参考訳(メタデータ) (2024-03-02T22:16:47Z) - Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts [55.470959564665705]
ウェイトシェアリングスーパーネットは、最先端のニューラルサーチフレームワークのパフォーマンス評価に不可欠である。
提案手法は,高速機械翻訳モデルのためのNASにおける最先端(SoTA)性能を実現する。
メモリ効率のよいタスク非依存のBERTモデルを構築するためにNASが優れている。
論文 参考訳(メタデータ) (2023-06-08T00:35:36Z) - AceNAS: Learning to Rank Ace Neural Architectures with Weak Supervision
of Weight Sharing [6.171090327531059]
空間から最高のアーキテクチャを選択するためのLearning to Rank手法を紹介します。
また,スーパーネットから得られた弱いラベルのアーキテクチャ表現を事前学習することで,重み共有から弱い管理を活用することを提案する。
NASベンチマークと大規模検索空間を用いた実験により,提案手法はSOTAよりも検索コストが大幅に削減された。
論文 参考訳(メタデータ) (2021-08-06T08:31:42Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - BossNAS: Exploring Hybrid CNN-transformers with Block-wisely
Self-supervised Neural Architecture Search [100.28980854978768]
BossNAS(Block-wisely Self-supervised Neural Architecture Search)の紹介
探索空間をブロックに分類し、アンサンブルブートストラッピングと呼ばれる新しい自己教師型トレーニングスキームを用いて各ブロックを個別に訓練する。
また,検索可能なダウンサンプリング位置を持つファブリック型cnnトランスフォーマ検索空間であるhytra search spaceを提案する。
論文 参考訳(メタデータ) (2021-03-23T10:05:58Z) - AttentiveNAS: Improving Neural Architecture Search via Attentive
Sampling [39.58754758581108]
2段階のニューラルネットワーク探索(NAS)は、顕著な精度と効率を達成する。
2段階のNASは、トレーニング中に探索空間からのサンプリングを必要とし、最終的な探索モデルの精度に直接影響を及ぼす。
本稿では,より優れたパレートを実現するため,サンプリング戦略の改善に焦点を当てたAttentiveNASを提案する。
発見されたモデルファミリであるAttentiveNASは、ImageNet上で77.3%から80.7%の精度でトップ1の精度を実現し、BigNASやOne-for-Allネットワークを含むSOTAモデルより優れています。
論文 参考訳(メタデータ) (2020-11-18T00:15:23Z) - Powering One-shot Topological NAS with Stabilized Share-parameter Proxy [65.09967910722932]
ワンショットNAS法は、高性能モデルを発見するための訓練効率と能力が際立ったため、研究コミュニティから大きな関心を集めている。
本研究では,大規模Topology Augmented Search Spaceにおいて,高性能なネットワークアーキテクチャを探索することにより,ワンショットNASの向上を図る。
提案手法は,ImageNet 上の Multiply-Adds (MAdds) 制約下での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-05-21T08:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。