論文の概要: Deeper Insights into Weight Sharing in Neural Architecture Search
- arxiv url: http://arxiv.org/abs/2001.01431v1
- Date: Mon, 6 Jan 2020 07:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 01:51:11.124599
- Title: Deeper Insights into Weight Sharing in Neural Architecture Search
- Title(参考訳): ニューラルアーキテクチャ探索における重みの共有に関する深い洞察
- Authors: Yuge Zhang, Zejun Lin, Junyang Jiang, Quanlu Zhang, Yujing Wang, Hui
Xue, Chen Zhang, Yaming Yang
- Abstract要約: 最近の研究は、重量共有を利用してモデル評価手順を高速化している。
ウェイトシェアリングは理論的保証がなく、その影響は以前にも十分に研究されていない。
重量共有の影響を明らかにするために包括的実験を行う。
- 参考スコア(独自算出の注目度): 13.886015416560674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of deep neural networks, Neural Architecture Search (NAS) as
a way of automatic model design has attracted wide attention. As training every
child model from scratch is very time-consuming, recent works leverage
weight-sharing to speed up the model evaluation procedure. These approaches
greatly reduce computation by maintaining a single copy of weights on the
super-net and share the weights among every child model. However,
weight-sharing has no theoretical guarantee and its impact has not been well
studied before. In this paper, we conduct comprehensive experiments to reveal
the impact of weight-sharing: (1) The best-performing models from different
runs or even from consecutive epochs within the same run have significant
variance; (2) Even with high variance, we can extract valuable information from
training the super-net with shared weights; (3) The interference between child
models is a main factor that induces high variance; (4) Properly reducing the
degree of weight sharing could effectively reduce variance and improve
performance.
- Abstract(参考訳): ディープニューラルネットワークの成功により、自動モデル設計の手段としてのニューラルアーキテクチャサーチ(NAS)が注目されている。
すべての子どもモデルをスクラッチからトレーニングするのは非常に時間がかかるため、最近の研究では重み付けを利用してモデル評価の手順をスピードアップしている。
これらのアプローチはスーパーネット上で重みのコピーを1つ残し、全ての子モデルで重みを共有することによって計算を大幅に削減する。
しかし、重量共有は理論的保証がなく、その影響は以前にも十分に研究されていない。
In this paper, we conduct comprehensive experiments to reveal the impact of weight-sharing: (1) The best-performing models from different runs or even from consecutive epochs within the same run have significant variance; (2) Even with high variance, we can extract valuable information from training the super-net with shared weights; (3) The interference between child models is a main factor that induces high variance; (4) Properly reducing the degree of weight sharing could effectively reduce variance and improve performance.
関連論文リスト
- Improved Generalization of Weight Space Networks via Augmentations [53.87011906358727]
深度重み空間(DWS)における学習は新たな研究方向であり、2次元および3次元神経場(INRs, NeRFs)への応用
我々は、この過度な適合の理由を実証的に分析し、主要な理由は、DWSデータセットの多様性の欠如であることがわかった。
そこで本研究では,重み空間におけるデータ拡張戦略について検討し,重み空間に適応したMixUp法を提案する。
論文 参考訳(メタデータ) (2024-02-06T15:34:44Z) - Optimizing Dense Feed-Forward Neural Networks [0.0]
本稿では,プルーニングと移動学習に基づくフィードフォワードニューラルネットワークの構築手法を提案する。
提案手法では,パラメータ数を70%以上圧縮できる。
また、ニューラルネットワークをスクラッチからトレーニングしたモデルと元のモデルを比較し、トランスファー学習レベルを評価した。
論文 参考訳(メタデータ) (2023-12-16T23:23:16Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - The Combinatorial Brain Surgeon: Pruning Weights That Cancel One Another
in Neural Networks [40.41972477509501]
ニューラルネットワークは、トレーニングが大きくなると、より正確になる傾向がある。
このような過剰なパラメータを慎重に取り除くことは、トレーニング前、中、または、後のモデルでも、同様の、あるいは、精度が向上したモデルを生成することができる。
我々は脳サージオン(OBS)の拡張問題を解決するためのトラクタブルアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-09T00:58:04Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。