論文の概要: Pretraining a Neural Network before Knowing Its Architecture
- arxiv url: http://arxiv.org/abs/2207.10049v1
- Date: Wed, 20 Jul 2022 17:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:38:02.369358
- Title: Pretraining a Neural Network before Knowing Its Architecture
- Title(参考訳): アーキテクチャを知る前にニューラルネットワークの事前学習
- Authors: Boris Knyazev
- Abstract要約: 大規模なニューラルネットワークのトレーニングは、大きなニューラルネットワークのパラメータを予測する小さなハイパーネットワークをトレーニングすることで可能である。
最近リリースされたGraph HyperNetwork(GHN)は、100万の小さなImageNetアーキテクチャを使って、ResNet-50のような巨大な未確認ネットワークのパラメータを予測することができるようにトレーニングした。
予測されたパラメータを持つネットワークは、ソースタスクの性能を失うが、予測されたパラメータは他のタスクの微調整に有用であることが判明した。
- 参考スコア(独自算出の注目度): 2.170169149901781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large neural networks is possible by training a smaller hypernetwork
that predicts parameters for the large ones. A recently released Graph
HyperNetwork (GHN) trained this way on one million smaller ImageNet
architectures is able to predict parameters for large unseen networks such as
ResNet-50. While networks with predicted parameters lose performance on the
source task, the predicted parameters have been found useful for fine-tuning on
other tasks. We study if fine-tuning based on the same GHN is still useful on
novel strong architectures that were published after the GHN had been trained.
We found that for recent architectures such as ConvNeXt, GHN initialization
becomes less useful than for ResNet-50. One potential reason is the increased
distribution shift of novel architectures from those used to train the GHN. We
also found that the predicted parameters lack the diversity necessary to
successfully fine-tune parameters with gradient descent. We alleviate this
limitation by applying simple post-processing techniques to predicted
parameters before fine-tuning them on a target task and improve fine-tuning of
ResNet-50 and ConvNeXt.
- Abstract(参考訳): 大きなニューラルネットワークのトレーニングは、大きなニューラルネットワークのパラメータを予測する小さなハイパーネットワークをトレーニングすることで可能になる。
最近リリースされたgraph hypernetwork(ghn)は、100万の小さなimagenetアーキテクチャでこの方法でトレーニングされており、resnet-50のような大きな見えないネットワークのパラメータを予測できる。
予測パラメータを持つネットワークは、ソースタスクのパフォーマンスを失うが、予測パラメータは他のタスクの微調整に有用であることが判明している。
我々は、GHNが訓練された後に発表された新しい強力なアーキテクチャにおいて、同じGHNに基づく微調整が依然として有用であるかどうかを考察する。
ConvNeXtのような最近のアーキテクチャでは、GHNの初期化はResNet-50よりも役に立たないことがわかった。
潜在的な理由の1つは、GHNの訓練に使われたものから新しいアーキテクチャの分布シフトが増加することである。
また,予測パラメータには勾配降下を伴う微調整パラメータの多様性が欠如していることが判明した。
本稿では,ResNet-50とConvNeXtの微調整を改善する前に,予測パラメータに単純な後処理技術を適用することで,この制限を緩和する。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters [31.55846326336193]
Graph HyperNetworks(GHN)は先日,大規模なビジョンモデルの初期化において,強力なパフォーマンスを示している。
LoGAHにより、774万の大規模ニューラルネットワークのパラメータをメモリ効率よく予測できる。
論文 参考訳(メタデータ) (2024-05-25T15:56:15Z) - GHN-Q: Parameter Prediction for Unseen Quantized Convolutional
Architectures via Graph Hypernetworks [80.29667394618625]
我々は,未知の量子化CNNアーキテクチャのパラメータの予測にグラフハイパーネットを用いることを初めて検討した。
我々は、CNNの探索空間の縮小に着目し、GHN-Qが実際に8ビットの量子化されたCNNの量子化-ロバストパラメータを予測できることを見出した。
論文 参考訳(メタデータ) (2022-08-26T08:00:02Z) - Comprehensive Graph Gradual Pruning for Sparse Training in Graph Neural
Networks [52.566735716983956]
本稿では,CGPと呼ばれるグラフの段階的プルーニングフレームワークを動的にGNNに提案する。
LTHに基づく手法とは異なり、提案手法では再学習を必要とせず、計算コストを大幅に削減する。
提案手法は,既存の手法の精度を一致させたり,あるいは超えたりしながら,トレーニングと推論の効率を大幅に向上させる。
論文 参考訳(メタデータ) (2022-07-18T14:23:31Z) - LilNetX: Lightweight Networks with EXtreme Model Compression and
Structured Sparsification [36.651329027209634]
LilNetXは、ニューラルネットワークのためのエンドツーエンドのトレーニング可能なテクニックである。
特定の精度-レート-計算トレードオフを持つ学習モデルを可能にする。
論文 参考訳(メタデータ) (2022-04-06T17:59:10Z) - An Experimental Study of the Impact of Pre-training on the Pruning of a
Convolutional Neural Network [0.0]
近年、ディープニューラルネットワークは様々なアプリケーション領域で広く成功している。
ディープニューラルネットワークは通常、ネットワークの重みに対応する多数のパラメータを含む。
プルーニング法は特に、無関係な重みを識別して取り除くことにより、パラメータセットのサイズを減らそうとしている。
論文 参考訳(メタデータ) (2021-12-15T16:02:15Z) - RGP: Neural Network Pruning through Its Regular Graph Structure [6.0686251332936365]
本稿では,ニューラルネットワークのグラフ構造について検討し,レギュラーグラフベースプルーニング(RGP)を提案し,ワンショットニューラルネットワークプルーニングを行う。
実験の結果,グラフの平均最短経路長は,対応するニューラルネットワークの分類精度と負の相関が認められた。
論文 参考訳(メタデータ) (2021-10-28T15:08:32Z) - Parameter Prediction for Unseen Deep Architectures [23.79630072083828]
我々は、他のネットワークを訓練する過去の知識を利用して、ディープラーニングを使ってパラメータを直接予測できるかどうか検討する。
本稿では,CPU上でも1秒の間隔で1回のフォワードパスで性能パラメータを予測できるハイパーネットワークを提案する。
提案したモデルは、目に見えない多様なネットワーク上で驚くほど優れた性能を達成する。
論文 参考訳(メタデータ) (2021-10-25T16:52:33Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。