論文の概要: Transfer Learning Between Different Architectures Via Weights Injection
- arxiv url: http://arxiv.org/abs/2101.02757v1
- Date: Thu, 7 Jan 2021 20:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 14:41:21.420752
- Title: Transfer Learning Between Different Architectures Via Weights Injection
- Title(参考訳): 重み注入による異なるアーキテクチャ間のトランスファー学習
- Authors: Maciej A. Czyzewski
- Abstract要約: 本稿では,計算量的に安価なインジェクション手法を用いて,異なるアーキテクチャ間のパラメータ転送のためのナイーブアルゴリズムを提案する。
第一の目的は、ニューラルネットワークのトレーニングをスクラッチからスピードアップすることだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a naive algorithm for parameter transfer between different
architectures with a computationally cheap injection technique (which does not
require data). The primary objective is to speed up the training of neural
networks from scratch. It was found in this study that transferring knowledge
from any architecture was superior to Kaiming and Xavier for initialization. In
conclusion, the method presented is found to converge faster, which makes it a
drop-in replacement for classical methods. The method involves: 1) matching:
the layers of the pre-trained model with the targeted model; 2) injection: the
tensor is transformed into a desired shape. This work provides a comparison of
similarity between the current SOTA architectures (ImageNet), by utilising TLI
(Transfer Learning by Injection) score.
- Abstract(参考訳): 本稿では,計算量的に安価なインジェクション手法(データを必要としない)を用いて,異なるアーキテクチャ間のパラメータ転送のためのナイーブなアルゴリズムを提案する。
第一の目的は、ニューラルネットワークのトレーニングをスクラッチからスピードアップすることだ。
この研究は、任意のアーキテクチャから知識を移すことが、初期化においてカイミングやザビエルよりも優れていることを発見した。
結論として,提案手法はより高速に収束し,古典的手法の代替となる。
1) マッチング: 事前訓練されたモデルの層と対象モデルとのマッチング; 2) 注入: テンソルは望ましい形に変換される。
この研究は、TLI(Transfer Learning by Injection)スコアを利用して、現在のSOTAアーキテクチャ(ImageNet)の類似性を比較する。
関連論文リスト
- Neural Fine-Tuning Search for Few-Shot Learning [10.194808064624771]
数発の認識では、分類器は、解離した新しいクラスの集合に迅速に適応し、一般化するために必要となる。
近年の研究では、慎重に製作された適応型アーキテクチャによる微調整の有効性が示されている。
ニューラル・アーキテクチャ・サーチ(NAS)のレンズを用いてこの問題を研究する。
論文 参考訳(メタデータ) (2023-06-15T17:20:35Z) - Breaking the Architecture Barrier: A Method for Efficient Knowledge
Transfer Across Networks [0.0]
本稿では,異なるアーキテクチャのニューラルネットワーク間でパラメータを転送する手法を提案する。
我々の手法はDPIATと呼ばれ、動的プログラミングを用いてアーキテクチャ間のブロックとレイヤをマッチングし、パラメータを効率的に転送する。
ImageNetの実験では,50時間後の平均1.6倍の検証精度が向上した。
論文 参考訳(メタデータ) (2022-12-28T17:35:41Z) - CoV-TI-Net: Transferred Initialization with Modified End Layer for
COVID-19 Diagnosis [5.546855806629448]
転送学習は比較的新しい学習手法であり、少ない計算で優れた性能を達成するために多くの分野で採用されている。
本研究では,MNISTデータセットにPyTorch事前学習モデル(VGG19_bnとWideResNet -101)を適用した。
提案したモデルはKaggleのノートブックで開発、検証され、計算時間を要さずに99.77%の精度に達した。
論文 参考訳(メタデータ) (2022-09-20T08:52:52Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Partial Is Better Than All: Revisiting Fine-tuning Strategy for Few-shot
Learning [76.98364915566292]
一般的なプラクティスは、まずベースセット上でモデルをトレーニングし、その後、微調整によって新しいクラスに移行することである。
本稿では,基本モデル内の特定の層を凍結あるいは微調整することにより,部分的知識の伝達を提案する。
提案手法の有効性を実証するために, CUB と mini-ImageNet の広範な実験を行った。
論文 参考訳(メタデータ) (2021-02-08T03:27:05Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z) - Generalized Zero and Few-Shot Transfer for Facial Forgery Detection [3.8073142980733]
フォージェリ検出の文脈でゼロおよび少数ショット転送の問題に対処する新しいトランスファー学習手法を提案する。
従来の分類や最先端のドメイン適応/ファウショット学習手法と比較して,この学習戦略は驚くほど効果的である。
論文 参考訳(メタデータ) (2020-06-21T18:10:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。