論文の概要: Multi-fidelity Neural Architecture Search with Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2006.08341v2
- Date: Wed, 19 May 2021 09:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 03:05:49.127057
- Title: Multi-fidelity Neural Architecture Search with Knowledge Distillation
- Title(参考訳): 知識蒸留による多元性ニューラルアーキテクチャ探索
- Authors: Ilya Trofimov, Nikita Klyuchnikov, Mikhail Salnikov, Alexander
Filippov, Evgeny Burnaev
- Abstract要約: ニューラルアーキテクチャ探索のためのベイズ的多重忠実度法 MF-KD を提案する。
知識蒸留は損失関数に追加され、ネットワークが教師ネットワークを模倣することを強制する用語となる。
このような変化した損失関数を持ついくつかのエポックに対するトレーニングは、ロジスティックな損失を持ついくつかのエポックに対するトレーニングよりも、より優れたニューラルアーキテクチャの選択につながることを示す。
- 参考スコア(独自算出の注目度): 69.09782590880367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural architecture search (NAS) targets at finding the optimal architecture
of a neural network for a problem or a family of problems. Evaluations of
neural architectures are very time-consuming. One of the possible ways to
mitigate this issue is to use low-fidelity evaluations, namely training on a
part of a dataset, fewer epochs, with fewer channels, etc. In this paper, we
propose a bayesian multi-fidelity method for neural architecture search: MF-KD.
The method relies on a new approach to low-fidelity evaluations of neural
architectures by training for a few epochs using a knowledge distillation.
Knowledge distillation adds to a loss function a term forcing a network to
mimic some teacher network. We carry out experiments on CIFAR-10, CIFAR-100,
and ImageNet-16-120. We show that training for a few epochs with such a
modified loss function leads to a better selection of neural architectures than
training for a few epochs with a logistic loss. The proposed method outperforms
several state-of-the-art baselines.
- Abstract(参考訳): neural architecture search (nas) は、問題や問題群に対するニューラルネットワークの最適なアーキテクチャを見つけることを目的としている。
ニューラルネットワークの評価は非常に時間がかかる。
この問題を軽減する方法の1つは、データセットの一部でのトレーニング、エポックの削減、チャンネルの削減など、低忠実度評価を使用することだ。
本稿では,ニューラルアーキテクチャ探索のためのベイズ的多重忠実度法 MF-KD を提案する。
この手法は、知識蒸留を用いたいくつかのエポックのトレーニングにより、ニューラルネットワークの低忠実度評価への新しいアプローチに依存している。
知識蒸留は、教師ネットワークを模倣するネットワークを強制する用語の損失関数に追加する。
CIFAR-10, CIFAR-100, ImageNet-16-120について実験を行った。
このような変化した損失関数を持ついくつかのエポックに対するトレーニングは、ロジスティックな損失を持ついくつかのエポックに対するトレーニングよりも、より優れたニューラルアーキテクチャの選択につながることを示す。
提案手法は,最先端のベースラインを上回っている。
関連論文リスト
- Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - BayesFT: Bayesian Optimization for Fault Tolerant Neural Network
Architecture [8.005491953251541]
フォールトトレラントニューラルネットワークアーキテクチャ(BayesFT)のための新しいベイズ最適化手法を提案する。
我々のフレームワークは,画像分類や物体検出など,様々なタスクにおいて,最先端の手法を最大10倍に向上させてきた。
論文 参考訳(メタデータ) (2022-09-30T20:13:05Z) - Demystifying the Neural Tangent Kernel from a Practical Perspective: Can
it be trusted for Neural Architecture Search without training? [37.29036906991086]
本研究では,ニューラルタンジェントカーネル(NTK)から導出できるいくつかの初期化指標を再検討する。
現代のニューラルアーキテクチャは、高い非線形特性を示しており、NTKベースのメトリクスは、ある程度のトレーニングを伴わずに、アーキテクチャのパフォーマンスを確実に見積もることができる。
これはNTKに基づく新しい計量であり、その固有な定式化により、現代のニューラルアーキテクチャに存在する多くの非線形優位性を捉えることができる。
論文 参考訳(メタデータ) (2022-03-28T08:43:04Z) - Self-Denoising Neural Networks for Few Shot Learning [66.38505903102373]
既存のニューラルアーキテクチャの複数の段階でノイズを追加すると同時に、この付加ノイズに対して堅牢であるように学習する新しいトレーニングスキームを提案する。
このアーキテクチャは、SDNN(Self-Denoising Neural Network)と呼ばれ、現代の畳み込みニューラルネットワークに容易に適用できます。
論文 参考訳(メタデータ) (2021-10-26T03:28:36Z) - D-DARTS: Distributed Differentiable Architecture Search [75.12821786565318]
微分可能なArchiTecture Search(DARTS)は、最も流行しているニューラルネットワークサーチ(NAS)の1つである。
セルレベルで複数のニューラルネットワークをネストすることでこの問題に対処する新しいソリューションD-DARTSを提案する。
論文 参考訳(メタデータ) (2021-08-20T09:07:01Z) - A Novel Framework for Neural Architecture Search in the Hill Climbing
Domain [2.729898906885749]
ヒルクライミング手法に基づくニューラルアーキテクチャ探索のための新しいフレームワークを提案する。
単一のGPUトレーニングの19.4時間でCIFAR-10データセットの4.96%のエラー率を達成した。
論文 参考訳(メタデータ) (2021-02-22T04:34:29Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - VINNAS: Variational Inference-based Neural Network Architecture Search [2.685668802278155]
スパース畳み込みニューラルネットワークを探索するための可変変分推論に基づくNAS法を提案する。
提案手法は,非ゼロパラメータの約2倍の精度で最先端の精度を示しながら,多様なネットワークセルを探索する。
論文 参考訳(メタデータ) (2020-07-12T21:47:35Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。