論文の概要: MixtureGrowth: Growing Neural Networks by Recombining Learned Parameters
- arxiv url: http://arxiv.org/abs/2311.04251v1
- Date: Tue, 7 Nov 2023 11:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 18:06:39.393321
- Title: MixtureGrowth: Growing Neural Networks by Recombining Learned Parameters
- Title(参考訳): MixtureGrowth:学習パラメータの再結合によるニューラルネットワークの成長
- Authors: Chau Pham, Piotr Teterwak, Soren Nelson, Bryan A. Plummer
- Abstract要約: ほとんどのディープニューラルネットワークは、固定されたネットワークアーキテクチャの下でトレーニングされており、アーキテクチャの変更時に再トレーニングを必要とする。
これを回避するために、時間とともにランダムな重みを加えて小さなネットワークから成長させ、徐々にターゲットネットワークサイズを達成できる。
このナイーブなアプローチは、成長するプロセスに多くのノイズをもたらすため、実際には不足しています。
- 参考スコア(独自算出の注目度): 19.358670728803336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most deep neural networks are trained under fixed network architectures and
require retraining when the architecture changes. If expanding the network's
size is needed, it is necessary to retrain from scratch, which is expensive. To
avoid this, one can grow from a small network by adding random weights over
time to gradually achieve the target network size. However, this naive approach
falls short in practice as it brings too much noise to the growing process.
Prior work tackled this issue by leveraging the already learned weights and
training data for generating new weights through conducting a computationally
expensive analysis step. In this paper, we introduce MixtureGrowth, a new
approach to growing networks that circumvents the initialization overhead in
prior work. Before growing, each layer in our model is generated with a linear
combination of parameter templates. Newly grown layer weights are generated by
using a new linear combination of existing templates for a layer. On one hand,
these templates are already trained for the task, providing a strong
initialization. On the other, the new coefficients provide flexibility for the
added layer weights to learn something new. We show that our approach boosts
top-1 accuracy over the state-of-the-art by 2-2.5% on CIFAR-100 and ImageNet
datasets, while achieving comparable performance with fewer FLOPs to a larger
network trained from scratch. Code is available at
https://github.com/chaudatascience/mixturegrowth.
- Abstract(参考訳): ほとんどのディープニューラルネットワークは、固定されたネットワークアーキテクチャの下でトレーニングされており、アーキテクチャの変更時に再トレーニングを必要とする。
ネットワークのサイズを拡大する必要がある場合は、スクラッチから再トレーニングする必要があります。
これを回避するために、時間とともにランダムな重みを加えて小さなネットワークから成長させ、徐々にターゲットネットワークサイズを達成できる。
しかし、このナイーブなアプローチは、成長プロセスにノイズをもたらすため、実際には不足しています。
先行研究は、計算コストの高い分析ステップを実行することによって、既に学習済みの重み付けとトレーニングデータを活用して新しい重み付けを生成することでこの問題に取り組みました。
本稿では,先行業務における初期化オーバーヘッドを回避するネットワーク構築のための新しいアプローチであるmixed growthを提案する。
成長する前に、モデルの各レイヤはパラメータテンプレートの線形結合で生成される。
新しい成長層重みは、既存のテンプレートを1層に線形に組み合わせることで生成される。
一方、これらのテンプレートはタスクのためにすでにトレーニングされており、強い初期化を提供する。
一方、新しい係数は、付加層重みが新しいことを学ぶための柔軟性を提供する。
今回のアプローチは,cifar-100とimagenetのデータセット上で,最先端よりもtop-1の精度を2-2.5%向上させると同時に,スクラッチからトレーニングした大規模ネットワークへのフラップを少なくして同等のパフォーマンスを実現していることを示す。
コードはhttps://github.com/chaudatascience/mixture growingで入手できる。
関連論文リスト
- Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - Data Augmentations in Deep Weight Spaces [89.45272760013928]
そこで本研究では,Mixup法に基づく新しい拡張手法を提案する。
既存のベンチマークと新しいベンチマークでこれらのテクニックのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-11-15T10:43:13Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - GROWN: GRow Only When Necessary for Continual Learning [39.56829374809613]
ディープニューラルネットワーク(Deep Neural Networks, DNN)は、新しいタスクを学ぶ際に、以前のタスクに関する知識を忘れてしまう。
この問題に対処するために、新しいタスクを逐次学習し、忘れずに古いタスクから新しいタスクへの知識伝達を行う連続学習が開発された。
GROWNは、必要な時にのみモデルを動的に成長させる、新しいエンドツーエンドの継続的学習フレームワークである。
論文 参考訳(メタデータ) (2021-10-03T02:31:04Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Training highly effective connectivities within neural networks with
randomly initialized, fixed weights [4.56877715768796]
重みの符号を反転させてネットワークを訓練する新しい方法を提案する。
重みが一定等級であっても、高非対称分布から重みが引き出される場合でも良い結果が得られる。
論文 参考訳(メタデータ) (2020-06-30T09:41:18Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。