論文の概要: PA&DA: Jointly Sampling PAth and DAta for Consistent NAS
- arxiv url: http://arxiv.org/abs/2302.14772v1
- Date: Tue, 28 Feb 2023 17:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:11:24.052533
- Title: PA&DA: Jointly Sampling PAth and DAta for Consistent NAS
- Title(参考訳): PA&DA: 一貫性NASのための共同サンプリングPAthとDAta
- Authors: Shun Lu, Yu Hu, Longxing Yang, Zihao Sun, Jilin Mei, Jianchao Tan,
Chengru Song
- Abstract要約: ワンショットNASメソッドはスーパーネットをトレーニングし、トレーニング済みの重みを継承してサブモデルを評価する。
大規模な勾配分散は、スーパーネットのトレーニング中に発生し、スーパーネットのランキング一貫性を低下させる。
本稿では,PAth と DAta のサンプリング分布を最適化することにより,スーパーネットトレーニングの勾配分散を明示的に最小化することを提案する。
- 参考スコア(独自算出の注目度): 8.737995937682271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Based on the weight-sharing mechanism, one-shot NAS methods train a supernet
and then inherit the pre-trained weights to evaluate sub-models, largely
reducing the search cost. However, several works have pointed out that the
shared weights suffer from different gradient descent directions during
training. And we further find that large gradient variance occurs during
supernet training, which degrades the supernet ranking consistency. To mitigate
this issue, we propose to explicitly minimize the gradient variance of the
supernet training by jointly optimizing the sampling distributions of PAth and
DAta (PA&DA). We theoretically derive the relationship between the gradient
variance and the sampling distributions, and reveal that the optimal sampling
probability is proportional to the normalized gradient norm of path and
training data. Hence, we use the normalized gradient norm as the importance
indicator for path and training data, and adopt an importance sampling strategy
for the supernet training. Our method only requires negligible computation cost
for optimizing the sampling distributions of path and data, but achieves lower
gradient variance during supernet training and better generalization
performance for the supernet, resulting in a more consistent NAS. We conduct
comprehensive comparisons with other improved approaches in various search
spaces. Results show that our method surpasses others with more reliable
ranking performance and higher accuracy of searched architectures, showing the
effectiveness of our method. Code is available at
https://github.com/ShunLu91/PA-DA.
- Abstract(参考訳): 重み共有機構に基づき、ワンショットnasメソッドはスーパーネットを訓練し、事前訓練された重みを継承してサブモデルを評価する。
しかし、いくつかの研究は、共有ウェイトはトレーニング中に勾配降下方向が異なることを指摘している。
さらに、スーパーネットトレーニング中に大きな勾配のばらつきが生じ、スーパーネットランキングの整合性を低下させる。
本稿では,PAth と DAta (PA&DA) のサンプリング分布を最適化することにより,スーパーネットトレーニングの勾配分散を明示的に最小化することを提案する。
理論的には、勾配分散とサンプリング分布の関係を導出し、最適サンプリング確率がパスとトレーニングデータの正規化勾配ノルムに比例していることを明らかにする。
したがって、正規化勾配ノルムを経路および訓練データの重要指標とし、スーパーネット訓練における重要サンプリング戦略を採用する。
提案手法は,パスとデータのサンプリング分布を最適化するためには無視可能な計算コストのみを必要とするが,スーパーネットトレーニング時の勾配分散の低減と,スーパーネットの一般化性能の向上を実現し,より一貫したNASを実現する。
我々は,様々な探索空間において,他の改良されたアプローチと包括的に比較する。
その結果,提案手法は信頼性が高く,検索アーキテクチャの精度も向上し,提案手法の有効性が示された。
コードはhttps://github.com/ShunLu91/PA-DAで入手できる。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - The Sampling-Gaussian for stereo matching [7.9898209414259425]
ソフトアルグマックス演算は、ニューラルネットワークベースのステレオマッチング法で広く採用されている。
従来の手法では精度を効果的に向上できず、ネットワークの効率を損なうこともあった。
本稿では,ステレオマッチングのための新しい監視手法,サンプリング・ガウシアンを提案する。
論文 参考訳(メタデータ) (2024-10-09T03:57:13Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Bandit Samplers for Training Graph Neural Networks [63.17765191700203]
グラフ畳み込みネットワーク(GCN)の訓練を高速化するために, ばらつきを低減したサンプリングアルゴリズムが提案されている。
これらのサンプリングアルゴリズムは、グラフ注意ネットワーク(GAT)のような固定重みよりも学習重量を含む、より一般的なグラフニューラルネットワーク(GNN)には適用できない。
論文 参考訳(メタデータ) (2020-06-10T12:48:37Z) - Generalized ODIN: Detecting Out-of-distribution Image without Learning
from Out-of-distribution Data [87.61504710345528]
我々は,OoD検出性能を改善しつつ,ニューラルネットワークをOoDデータのチューニングから解放する2つの方法を提案する。
具体的には、信頼性スコアリングと修正された入力前処理法を分離することを提案する。
大規模画像データセットのさらなる解析により、セマンティックシフトと非セマンティックシフトの2種類の分布シフトが有意な差を示すことが示された。
論文 参考訳(メタデータ) (2020-02-26T04:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。