Fugu-MT 論文翻訳(概要): Deeper Insights into Weight Sharing in Neural Architecture Search

論文の概要: Deeper Insights into Weight Sharing in Neural Architecture Search

arxiv url: http://arxiv.org/abs/2001.01431v1
Date: Mon, 6 Jan 2020 07:50:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-14 01:51:11.124599
Title: Deeper Insights into Weight Sharing in Neural Architecture Search
Title（参考訳）: ニューラルアーキテクチャ探索における重みの共有に関する深い洞察
Authors: Yuge Zhang, Zejun Lin, Junyang Jiang, Quanlu Zhang, Yujing Wang, Hui Xue, Chen Zhang, Yaming Yang
Abstract要約: 最近の研究は、重量共有を利用してモデル評価手順を高速化している。ウェイトシェアリングは理論的保証がなく、その影響は以前にも十分に研究されていない。重量共有の影響を明らかにするために包括的実験を行う。
参考スコア（独自算出の注目度）: 13.886015416560674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the success of deep neural networks, Neural Architecture Search (NAS) as a way of automatic model design has attracted wide attention. As training every child model from scratch is very time-consuming, recent works leverage weight-sharing to speed up the model evaluation procedure. These approaches greatly reduce computation by maintaining a single copy of weights on the super-net and share the weights among every child model. However, weight-sharing has no theoretical guarantee and its impact has not been well studied before. In this paper, we conduct comprehensive experiments to reveal the impact of weight-sharing: (1) The best-performing models from different runs or even from consecutive epochs within the same run have significant variance; (2) Even with high variance, we can extract valuable information from training the super-net with shared weights; (3) The interference between child models is a main factor that induces high variance; (4) Properly reducing the degree of weight sharing could effectively reduce variance and improve performance.
Abstract（参考訳）: ディープニューラルネットワークの成功により、自動モデル設計の手段としてのニューラルアーキテクチャサーチ(NAS)が注目されている。すべての子どもモデルをスクラッチからトレーニングするのは非常に時間がかかるため、最近の研究では重み付けを利用してモデル評価の手順をスピードアップしている。これらのアプローチはスーパーネット上で重みのコピーを1つ残し、全ての子モデルで重みを共有することによって計算を大幅に削減する。しかし、重量共有は理論的保証がなく、その影響は以前にも十分に研究されていない。 In this paper, we conduct comprehensive experiments to reveal the impact of weight-sharing: (1) The best-performing models from different runs or even from consecutive epochs within the same run have significant variance; (2) Even with high variance, we can extract valuable information from training the super-net with shared weights; (3) The interference between child models is a main factor that induces high variance; (4) Properly reducing the degree of weight sharing could effectively reduce variance and improve performance.

関連論文リスト

Towards Faster and More Compact Foundation Models for Molecular Property Prediction [44.64301507940171]
統合マルチドメイン事前学習(JMP)基盤モデルは、下流の様々なタスクに対して強い性能を示す。 JMPの利点にもかかわらず、小規模から大規模までの分子データセットを微調整するにはかなりの時間と計算資源が必要である。分子・材料発見のための軽量で高速でスケーラブルな基礎モデルを構築するための知見を提供する。
論文参考訳（メタデータ） (2025-04-28T07:41:03Z)
The Impact of Model Zoo Size and Composition on Weight Space Learning [8.11780615053558]
トレーニングされたニューラルネットワークモデルを再利用することは、トレーニングコストを削減し、知識を伝達する一般的な戦略である。重量宇宙学習は、将来のタスクのために事前訓練されたモデルの集団を再利用するための、有望な新しい分野である。そこで本研究では,異種集団の訓練に適応する共通重み空間学習法を提案する。
論文参考訳（メタデータ） (2025-04-14T11:54:06Z)
Revisiting Gradient Descent: A Dual-Weight Method for Improved Learning [4.751362812627724]
本稿では、各ニューロンの重みベクトルを2つの異なる部分に分解することで、ニューラルネットワークで学習するための新しいフレームワークを提案する。この分解によって一般化が促進され、特にトレーニングデータが疎かでノイズの多い場合、過度に適合することを示す。
論文参考訳（メタデータ） (2025-03-15T02:32:47Z)
Improved Generalization of Weight Space Networks via Augmentations [53.87011906358727]
深度重み空間(DWS)における学習は新たな研究方向であり、2次元および3次元神経場(INRs, NeRFs)への応用我々は、この過度な適合の理由を実証的に分析し、主要な理由は、DWSデータセットの多様性の欠如であることがわかった。そこで本研究では,重み空間におけるデータ拡張戦略について検討し,重み空間に適応したMixUp法を提案する。
論文参考訳（メタデータ） (2024-02-06T15:34:44Z)
Optimizing Dense Feed-Forward Neural Networks [0.0]
本稿では,プルーニングと移動学習に基づくフィードフォワードニューラルネットワークの構築手法を提案する。提案手法では,パラメータ数を70%以上圧縮できる。また、ニューラルネットワークをスクラッチからトレーニングしたモデルと元のモデルを比較し、トランスファー学習レベルを評価した。
論文参考訳（メタデータ） (2023-12-16T23:23:16Z)
Reusing Pretrained Models by Multi-linear Operators for Efficient Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。 bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文参考訳（メタデータ） (2023-10-16T06:16:47Z)
Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文参考訳（メタデータ） (2022-09-15T15:41:47Z)
The Combinatorial Brain Surgeon: Pruning Weights That Cancel One Another in Neural Networks [40.41972477509501]
ニューラルネットワークは、トレーニングが大きくなると、より正確になる傾向がある。このような過剰なパラメータを慎重に取り除くことは、トレーニング前、中、または、後のモデルでも、同様の、あるいは、精度が向上したモデルを生成することができる。我々は脳サージオン(OBS)の拡張問題を解決するためのトラクタブルアプローチを提案する。
論文参考訳（メタデータ） (2022-03-09T00:58:04Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文参考訳（メタデータ） (2020-12-25T20:50:15Z)
Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文参考訳（メタデータ） (2020-07-25T13:23:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。