論文の概要: Parameter Prediction for Unseen Deep Architectures
- arxiv url: http://arxiv.org/abs/2110.13100v1
- Date: Mon, 25 Oct 2021 16:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 13:25:34.632258
- Title: Parameter Prediction for Unseen Deep Architectures
- Title(参考訳): 未確認深層構造のパラメータ予測
- Authors: Boris Knyazev, Michal Drozdzal, Graham W. Taylor, Adriana
Romero-Soriano
- Abstract要約: 我々は、他のネットワークを訓練する過去の知識を利用して、ディープラーニングを使ってパラメータを直接予測できるかどうか検討する。
本稿では,CPU上でも1秒の間隔で1回のフォワードパスで性能パラメータを予測できるハイパーネットワークを提案する。
提案したモデルは、目に見えない多様なネットワーク上で驚くほど優れた性能を達成する。
- 参考スコア(独自算出の注目度): 23.79630072083828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has been successful in automating the design of features in
machine learning pipelines. However, the algorithms optimizing neural network
parameters remain largely hand-designed and computationally inefficient. We
study if we can use deep learning to directly predict these parameters by
exploiting the past knowledge of training other networks. We introduce a
large-scale dataset of diverse computational graphs of neural architectures -
DeepNets-1M - and use it to explore parameter prediction on CIFAR-10 and
ImageNet. By leveraging advances in graph neural networks, we propose a
hypernetwork that can predict performant parameters in a single forward pass
taking a fraction of a second, even on a CPU. The proposed model achieves
surprisingly good performance on unseen and diverse networks. For example, it
is able to predict all 24 million parameters of a ResNet-50 achieving a 60%
accuracy on CIFAR-10. On ImageNet, top-5 accuracy of some of our networks
approaches 50%. Our task along with the model and results can potentially lead
to a new, more computationally efficient paradigm of training networks. Our
model also learns a strong representation of neural architectures enabling
their analysis.
- Abstract(参考訳): ディープラーニングは、機械学習パイプラインにおける機能設計の自動化に成功している。
しかし、ニューラルネットワークパラメータを最適化するアルゴリズムは、手作業で設計され、計算的に非効率である。
我々は,過去のネットワークトレーニングの知識を活用して,これらのパラメータを直接予測するためにディープラーニングを利用することができるか検討する。
我々は、ニューラルネットワークの多様な計算グラフの大規模データセットDeepNets-1Mを導入し、CIFAR-10とImageNetのパラメータ予測に利用した。
グラフニューラルネットワークの進歩を活用することで,CPU上でも1秒の間隔で1回のフォワードパスでパフォーマンスパラメータを予測できるハイパーネットワークを提案する。
提案したモデルは、目に見えない多様なネットワーク上で驚くほど優れた性能を達成する。
例えば、cifar-10で60%の精度を達成するresnet-50の2400万のパラメータすべてを予測することができる。
ImageNetでは、一部のネットワークでトップ5の精度が50%に近づいている。
我々の課題とモデルと結果は、トレーニングネットワークの新しい、より計算効率の良いパラダイムにつながる可能性がある。
私たちのモデルは、分析を可能にするニューラルネットワークアーキテクチャの強力な表現も学んでいます。
関連論文リスト
- Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Receptive Field Refinement for Convolutional Neural Networks Reliably
Improves Predictive Performance [1.52292571922932]
本稿では,このような理論的および経験的性能向上をもたらす受容場解析への新たなアプローチを提案する。
我々のアプローチは、広く知られたSOTA(State-of-the-art)モデルクラスにおいて、ImageNet1Kのパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2022-11-26T05:27:44Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Pretraining a Neural Network before Knowing Its Architecture [2.170169149901781]
大規模なニューラルネットワークのトレーニングは、大きなニューラルネットワークのパラメータを予測する小さなハイパーネットワークをトレーニングすることで可能である。
最近リリースされたGraph HyperNetwork(GHN)は、100万の小さなImageNetアーキテクチャを使って、ResNet-50のような巨大な未確認ネットワークのパラメータを予測することができるようにトレーニングした。
予測されたパラメータを持つネットワークは、ソースタスクの性能を失うが、予測されたパラメータは他のタスクの微調整に有用であることが判明した。
論文 参考訳(メタデータ) (2022-07-20T17:27:50Z) - DNNAbacus: Toward Accurate Computational Cost Prediction for Deep Neural
Networks [0.9896984829010892]
本稿では,29の古典的ディープニューラルネットワークの計算資源要求を調査し,計算コストを予測するための正確なモデルを構築した。
ネットワーク表現のための新しいネットワーク構造行列を用いた軽量な予測手法DNNAbacusを提案する。
実験の結果, 平均相対誤差 (MRE) は時間に対して0.9%, メモリに関しては2.8%であった。
論文 参考訳(メタデータ) (2022-05-24T14:21:27Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z) - Inferring Convolutional Neural Networks' accuracies from their
architectural characterizations [0.0]
CNNのアーキテクチャと性能の関係について検討する。
本稿では,2つのコンピュータビジョンに基づく物理問題において,その特性がネットワークの性能を予測できることを示す。
我々は機械学習モデルを用いて、トレーニング前にネットワークが一定のしきい値精度よりも優れた性能を発揮できるかどうかを予測する。
論文 参考訳(メタデータ) (2020-01-07T16:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。