論文の概要: Delve into the Performance Degradation of Differentiable Architecture
Search
- arxiv url: http://arxiv.org/abs/2109.13466v1
- Date: Tue, 28 Sep 2021 03:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 15:00:42.917408
- Title: Delve into the Performance Degradation of Differentiable Architecture
Search
- Title(参考訳): 微分可能なアーキテクチャ探索の性能劣化を深く掘り下げる
- Authors: Jiuling Zhang and Zhiming Ding
- Abstract要約: 微分可能なアーキテクチャサーチ (DARTS) は、性能劣化につながる検証セットに過度に適合すると考えられる。
我々は、高強度アーキテクチャパラメータの正規化やウォームアップトレーニングスキームがこの問題を効果的に解決できないことを検証するために、一連の探索実験を用いている。
DARTSの性能はよく訓練されたスーパーネットの重みに依存しず、アーキテクチャパラメータは初期の段階から得られる勾配によって訓練されるべきであると主張する。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentiable architecture search (DARTS) is widely considered to be easy to
overfit the validation set which leads to performance degradation. We first
employ a series of exploratory experiments to verify that neither high-strength
architecture parameters regularization nor warmup training scheme can
effectively solve this problem. Based on the insights from the experiments, we
conjecture that the performance of DARTS does not depend on the well-trained
supernet weights and argue that the architecture parameters should be trained
by the gradients which are obtained in the early stage rather than the final
stage of training. This argument is then verified by exchanging the learning
rate schemes of weights and parameters. Experimental results show that the
simple swap of the learning rates can effectively solve the degradation and
achieve competitive performance. Further empirical evidence suggests that the
degradation is not a simple problem of the validation set overfitting but
exhibit some links between the degradation and the operation selection bias
within bilevel optimization dynamics. We demonstrate the generalization of this
bias and propose to utilize this bias to achieve an operation-magnitude-based
selective stop.
- Abstract(参考訳): 微分可能なアーキテクチャサーチ (DARTS) は、性能劣化につながる検証セットに過度に適合すると考えられる。
まず,一連の探索実験を行い,強固なアーキテクチャパラメータの正規化やウォームアップトレーニングが効果的に解決できないことを検証した。
実験から得られた知見から, DARTSの性能は訓練されたスーパーネットの重みに依存していないと推測し, アーキテクチャパラメータは訓練の最終段階ではなく, 初期の段階から得られる勾配によって訓練されるべきであると主張した。
この議論は、重みとパラメータの学習率スキームを交換することで検証される。
実験の結果, 学習率の簡易スワップが劣化を効果的に解消し, 競争性能を得ることができた。
さらなる実証的な証拠は、この分解は検証セットのオーバーフィッティングの単純な問題ではなく、双レベル最適化ダイナミクスにおける劣化と操作選択バイアスの関係を示している。
我々は,このバイアスの一般化を実証し,このバイアスを利用して操作量に基づく選択的停止を実現することを提案する。
関連論文リスト
- Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。
まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。
次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文 参考訳(メタデータ) (2024-10-25T20:50:32Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。
さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文 参考訳(メタデータ) (2023-10-16T16:13:53Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文 参考訳(メタデータ) (2021-10-08T20:25:48Z) - Generalization Guarantees for Neural Architecture Search with
Train-Validation Split [48.265305046655996]
本稿では,列車検証分割の統計的側面について検討する。
リスクや高度勾配などの検証損失の洗練された特性は、真のテスト損失の指標であることを示す。
また、NAS、マルチカーネル学習、低ランク行列学習の厳密な接続も強調する。
論文 参考訳(メタデータ) (2021-04-29T06:11:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。