論文の概要: Demystifying the Neural Tangent Kernel from a Practical Perspective: Can
it be trusted for Neural Architecture Search without training?
- arxiv url: http://arxiv.org/abs/2203.14577v1
- Date: Mon, 28 Mar 2022 08:43:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 13:41:26.851522
- Title: Demystifying the Neural Tangent Kernel from a Practical Perspective: Can
it be trusted for Neural Architecture Search without training?
- Title(参考訳): ニューラルネットワークカーネルの実践的視点から考える:トレーニングなしでニューラルネットワーク検索を信頼できるか?
- Authors: Jisoo Mok, Byunggook Na, Ji-Hoon Kim, Dongyoon Han, Sungroh Yoon
- Abstract要約: 本研究では,ニューラルタンジェントカーネル(NTK)から導出できるいくつかの初期化指標を再検討する。
現代のニューラルアーキテクチャは、高い非線形特性を示しており、NTKベースのメトリクスは、ある程度のトレーニングを伴わずに、アーキテクチャのパフォーマンスを確実に見積もることができる。
これはNTKに基づく新しい計量であり、その固有な定式化により、現代のニューラルアーキテクチャに存在する多くの非線形優位性を捉えることができる。
- 参考スコア(独自算出の注目度): 37.29036906991086
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In Neural Architecture Search (NAS), reducing the cost of architecture
evaluation remains one of the most crucial challenges. Among a plethora of
efforts to bypass training of each candidate architecture to convergence for
evaluation, the Neural Tangent Kernel (NTK) is emerging as a promising
theoretical framework that can be utilized to estimate the performance of a
neural architecture at initialization. In this work, we revisit several
at-initialization metrics that can be derived from the NTK and reveal their key
shortcomings. Then, through the empirical analysis of the time evolution of
NTK, we deduce that modern neural architectures exhibit highly non-linear
characteristics, making the NTK-based metrics incapable of reliably estimating
the performance of an architecture without some amount of training. To take
such non-linear characteristics into account, we introduce Label-Gradient
Alignment (LGA), a novel NTK-based metric whose inherent formulation allows it
to capture the large amount of non-linear advantage present in modern neural
architectures. With minimal amount of training, LGA obtains a meaningful level
of rank correlation with the post-training test accuracy of an architecture.
Lastly, we demonstrate that LGA, complemented with few epochs of training,
successfully guides existing search algorithms to achieve competitive search
performances with significantly less search cost. The code is available at:
https://github.com/nutellamok/DemystifyingNTK.
- Abstract(参考訳): ニューラルアーキテクチャサーチ(NAS)では、アーキテクチャ評価のコスト削減が依然として最も重要な課題である。
ニューラルタンジェントカーネル(NTK)は、各候補アーキテクチャのトレーニングを回避して評価に収束させる努力の中で、初期化時のニューラルアーキテクチャのパフォーマンスを見積もることができる有望な理論フレームワークとして登場している。
本研究では、NTKから導出できるいくつかの初期化メトリクスを再検討し、その重要な欠点を明らかにする。
そして、NTKの時間進化の実証分析により、現代のニューラルアーキテクチャは高い非線形特性を示しており、NTKベースのメトリクスは、ある程度のトレーニングをすることなく、アーキテクチャのパフォーマンスを確実に見積もることができる。
このような非線形特性を考慮に入れながら,現代のニューラルアーキテクチャに存在する多くの非線形優位性を捉えることができるNTKベースの新しい計量であるLGA(Label-Gradient Alignment)を導入する。
最小限のトレーニング量で、LGAはアーキテクチャのトレーニング後のテスト精度と有意義なレベルのランク相関を得る。
最後に、LGAが学習のエポックを補うことで、既存の検索アルゴリズムを誘導し、検索コストを大幅に削減して競合する検索性能を実現することを実証した。
コードはhttps://github.com/nutellamok/demystifyingntkで入手できる。
関連論文リスト
- Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - Training-free Neural Architecture Search for RNNs and Transformers [0.0]
我々は、RNNアーキテクチャのトレーニング性能を予測する、隠れ共分散と呼ばれる新しいトレーニングフリーメトリックを開発した。
トランスフォーマーアーキテクチャの現在の検索空間パラダイムは、トレーニング不要なニューラルアーキテクチャサーチに最適化されていない。
論文 参考訳(メタデータ) (2023-06-01T02:06:13Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - KNAS: Green Neural Architecture Search [49.36732007176059]
我々は新しいカーネルベースのアーキテクチャ探索手法KNASを提案する。
実験により、KNASは画像分類タスクにおける「列車試験」パラダイムよりも桁違いに高速な競合結果が得られることが示された。
検索されたネットワークは、2つのテキスト分類タスクで強力なベースラインであるRoBERTAよりも優れています。
論文 参考訳(メタデータ) (2021-11-26T02:11:28Z) - Connection Sensitivity Matters for Training-free DARTS: From
Architecture-Level Scoring to Operation-Level Sensitivity Analysis [32.94768616851585]
最近提案されたトレーニングフリーNAS手法は、トレーニングフェーズを放棄し、優れたアーキテクチャを識別するためのスコアとして、さまざまなゼロコストプロキシを設計する。
本稿では, DARTSにおける操作重要度を, パラメータ集中バイアスを回避して, トレーニング不要な方法で適切に測定できるか, という問題を提起する。
ZEROSをNASに活用するための反復的かつデータに依存しない手法を考案することにより、新しい試行は自由微分型アーキテクチャサーチ(FreeDARTS)と呼ばれるフレームワークに繋がる。
論文 参考訳(メタデータ) (2021-06-22T04:40:34Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - The Nonlinearity Coefficient -- A Practical Guide to Neural Architecture
Design [3.04585143845864]
我々は、アーキテクチャが比較的高いテストやトレーニング後のタスクのトレーニングエラーを達成できるかどうかを、トレーニングなしで予測できる手法を開発する。
その後、アーキテクチャ定義自体の観点でエラーを説明し、アーキテクチャを変更するツールを開発します。
最初の大きな貢献は、ニューラルネットワークアーキテクチャの'非線形性の度合い'がそのパフォーマンスの背後にある重要な因果的要因であることを示すことです。
論文 参考訳(メタデータ) (2021-05-25T20:47:43Z) - Multi-objective Neural Architecture Search with Almost No Training [9.93048700248444]
本稿ではRWE(Random-Weight Evaluation)という,ネットワークアーキテクチャの性能を迅速に評価する手法を提案する。
RWEは、アーキテクチャを評価するための計算コストを数時間から秒に短縮する。
進化的多目的アルゴリズムに統合されると、RWEはCIFAR-10上で2時間以内で1枚のGPUカードを検索し、最先端の性能を持つ効率的なアーキテクチャの集合を得る。
論文 参考訳(メタデータ) (2020-11-27T07:39:17Z) - Multi-fidelity Neural Architecture Search with Knowledge Distillation [69.09782590880367]
ニューラルアーキテクチャ探索のためのベイズ的多重忠実度法 MF-KD を提案する。
知識蒸留は損失関数に追加され、ネットワークが教師ネットワークを模倣することを強制する用語となる。
このような変化した損失関数を持ついくつかのエポックに対するトレーニングは、ロジスティックな損失を持ついくつかのエポックに対するトレーニングよりも、より優れたニューラルアーキテクチャの選択につながることを示す。
論文 参考訳(メタデータ) (2020-06-15T12:32:38Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。