論文の概要: Generalization Guarantees for Neural Architecture Search with
Train-Validation Split
- arxiv url: http://arxiv.org/abs/2104.14132v1
- Date: Thu, 29 Apr 2021 06:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 13:10:50.898325
- Title: Generalization Guarantees for Neural Architecture Search with
Train-Validation Split
- Title(参考訳): トレインバリデーションスプリットを用いたニューラルネットワーク探索のための一般化保証
- Authors: Samet Oymak, Mingchen Li, Mahdi Soltanolkotabi
- Abstract要約: 本稿では,列車検証分割の統計的側面について検討する。
リスクや高度勾配などの検証損失の洗練された特性は、真のテスト損失の指標であることを示す。
また、NAS、マルチカーネル学習、低ランク行列学習の厳密な接続も強調する。
- 参考スコア(独自算出の注目度): 48.265305046655996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural Architecture Search (NAS) is a popular method for automatically
designing optimized architectures for high-performance deep learning. In this
approach, it is common to use bilevel optimization where one optimizes the
model weights over the training data (lower-level problem) and various
hyperparameters such as the configuration of the architecture over the
validation data (upper-level problem). This paper explores the statistical
aspects of such problems with train-validation splits. In practice, the
lower-level problem is often overparameterized and can easily achieve zero
loss. Thus, a-priori it seems impossible to distinguish the right
hyperparameters based on training loss alone which motivates a better
understanding of the role of train-validation split. To this aim this work
establishes the following results. (1) We show that refined properties of the
validation loss such as risk and hyper-gradients are indicative of those of the
true test loss. This reveals that the upper-level problem helps select the most
generalizable model and prevent overfitting with a near-minimal validation
sample size. Importantly, this is established for continuous spaces -- which
are highly relevant for popular differentiable search schemes. (2) We establish
generalization bounds for NAS problems with an emphasis on an activation search
problem. When optimized with gradient-descent, we show that the
train-validation procedure returns the best (model, architecture) pair even if
all architectures can perfectly fit the training data to achieve zero error.
(3) Finally, we highlight rigorous connections between NAS, multiple kernel
learning, and low-rank matrix learning. The latter leads to novel algorithmic
insights where the solution of the upper problem can be accurately learned via
efficient spectral methods to achieve near-minimal risk.
- Abstract(参考訳): neural architecture search(nas)は、ハイパフォーマンスなディープラーニングのために最適化されたアーキテクチャを自動的に設計する一般的な方法である。
このアプローチでは、トレーニングデータ(下層問題)と、検証データ(上層問題)上のアーキテクチャの構成など、さまざまなハイパーパラメータよりもモデルの重みを最適化する二層最適化を用いるのが一般的である。
本稿では,列車値分割問題における統計的側面について考察する。
実際には、低いレベルの問題はしばしば過度にパラメータ化され、簡単にゼロ損失を達成することができる。
したがって、a-prioriでは、列車の分割の役割をよりよく理解する動機となるトレーニング損失のみに基づいて、正しいハイパーパラメータを区別することは不可能に思える。
この目的のために、この研究は以下の結果を確立する。
1) リスクや過勾配などの検証損失の洗練された特性は, 真のテスト損失の指標であることを示す。
このことは、上層問題は最も一般化可能なモデルを選択し、最小限の検証サンプルサイズでオーバーフィッティングを防ぐのに役立つことを示している。
重要なのは、これは連続空間 -- 一般的な微分可能検索スキームに非常に関係のある -- のために確立されていることである。
2) 活性化探索問題に重点を置いたNAS問題の一般化境界を確立する。
勾配勾配に最適化すると、すべてのアーキテクチャがトレーニングデータに完全に適合してゼロエラーを達成できたとしても、列車検証手順が最良の(モデル、アーキテクチャ)ペアを返すことを示す。
(3) 最後に,NAS,マルチカーネル学習,低ランク行列学習の厳密な関係を強調した。
後者はアルゴリズム上の問題に対する解法を効率的なスペクトル法によって正確に学習し、最小限のリスクを達成できる新しいアルゴリズムの洞察をもたらす。
関連論文リスト
- Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。
まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。
次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文 参考訳(メタデータ) (2024-10-25T20:50:32Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - A Differentiable Approach to Combinatorial Optimization using Dataless
Neural Networks [20.170140039052455]
我々は、ソリューションを生成するニューラルネットワークのトレーニングにデータを必要としないという、根本的に異なるアプローチを提案する。
特に、最適化問題をニューラルネットワークに還元し、データレストレーニングスキームを用いて、それらのパラメータが関心の構造をもたらすように、ネットワークのパラメータを洗練する。
論文 参考訳(メタデータ) (2022-03-15T19:21:31Z) - iDARTS: Differentiable Architecture Search with Stochastic Implicit
Gradients [75.41173109807735]
微分可能なArchiTecture Search(DARTS)は先日,ニューラルアーキテクチャサーチ(NAS)の主流になった。
暗黙の関数定理に基づいてDARTSの過次計算に取り組む。
提案手法であるiDARTSのアーキテクチャ最適化は,定常点に収束することが期待される。
論文 参考訳(メタデータ) (2021-06-21T00:44:11Z) - The Nonlinearity Coefficient -- A Practical Guide to Neural Architecture
Design [3.04585143845864]
我々は、アーキテクチャが比較的高いテストやトレーニング後のタスクのトレーニングエラーを達成できるかどうかを、トレーニングなしで予測できる手法を開発する。
その後、アーキテクチャ定義自体の観点でエラーを説明し、アーキテクチャを変更するツールを開発します。
最初の大きな貢献は、ニューラルネットワークアーキテクチャの'非線形性の度合い'がそのパフォーマンスの背後にある重要な因果的要因であることを示すことです。
論文 参考訳(メタデータ) (2021-05-25T20:47:43Z) - ISTA-NAS: Efficient and Consistent Neural Architecture Search by Sparse
Coding [86.40042104698792]
スパース符号問題としてニューラルアーキテクチャ探索を定式化する。
実験では、CIFAR-10の2段階法では、検索にわずか0.05GPUしか必要としない。
本手法は,CIFAR-10とImageNetの両方において,評価時間のみのコストで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-13T04:34:24Z) - Inexact Derivative-Free Optimization for Bilevel Learning [0.27074235008521236]
変分正則化技術は数理イメージングの分野で支配的である。
この問題を解決するための一般的な戦略は、これらのパラメータをデータから学習することだ。
上層問題の解法では、下層問題の正確な解にアクセスできると仮定することが一般的であり、実際は不可能である。
本稿では, 厳密な低レベル問題解を必要としない不正確な微分自由最適化アルゴリズムを用いて, これらの問題を解くことを提案する。
論文 参考訳(メタデータ) (2020-06-23T00:17:32Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - MiLeNAS: Efficient Neural Architecture Search via Mixed-Level
Reformulation [25.56562895285528]
mldasはNASの混合レベルの改質であり、効率よく確実に最適化できる。
混合レベルの定式化に単純な一階法を用いる場合であっても、mldasはNAS問題の検証誤差を低くすることができる。
論文 参考訳(メタデータ) (2020-03-27T05:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。