論文の概要: Adjoined Networks: A Training Paradigm with Applications to Network
Compression
- arxiv url: http://arxiv.org/abs/2006.05624v5
- Date: Fri, 15 Apr 2022 00:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:04:54.914706
- Title: Adjoined Networks: A Training Paradigm with Applications to Network
Compression
- Title(参考訳): 隣接ネットワーク:ネットワーク圧縮への応用による学習パラダイム
- Authors: Utkarsh Nath, Shrinu Kushagra, Yingzhen Yang
- Abstract要約: 本稿では、元のベースネットワークとより小さな圧縮ネットワークの両方を同時にトレーニングする学習パラダイムであるAdjoined Networks(AN)を紹介する。
ベースネットワークとしてResNet-50を使用すると、画像Netデータセット上の1.8Mパラメータと1.6GFLOPで71.8%のトップ-1の精度が達成される。
我々は,ニューラルネットワーク探索を用いて,より小さなネットワークの各レイヤの幅と重みを共同で学習し,ANを増強する訓練パラダイムであるDaniable Adjoined Networks (DAN)を提案する。
- 参考スコア(独自算出の注目度): 3.995047443480282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing deep neural networks while maintaining accuracy is important when
we want to deploy large, powerful models in production and/or edge devices. One
common technique used to achieve this goal is knowledge distillation.
Typically, the output of a static pre-defined teacher (a large base network) is
used as soft labels to train and transfer information to a student (or smaller)
network. In this paper, we introduce Adjoined Networks, or AN, a learning
paradigm that trains both the original base network and the smaller compressed
network together. In our training approach, the parameters of the smaller
network are shared across both the base and the compressed networks. Using our
training paradigm, we can simultaneously compress (the student network) and
regularize (the teacher network) any architecture. In this paper, we focus on
popular CNN-based architectures used for computer vision tasks. We conduct an
extensive experimental evaluation of our training paradigm on various
large-scale datasets. Using ResNet-50 as the base network, AN achieves 71.8%
top-1 accuracy with only 1.8M parameters and 1.6 GFLOPs on the ImageNet
data-set. We further propose Differentiable Adjoined Networks (DAN), a training
paradigm that augments AN by using neural architecture search to jointly learn
both the width and the weights for each layer of the smaller network. DAN
achieves ResNet-50 level accuracy on ImageNet with $3.8\times$ fewer parameters
and $2.2\times$ fewer FLOPs.
- Abstract(参考訳): 生産および/またはエッジデバイスに大規模で強力なモデルをデプロイしたい場合、精度を維持しながらディープニューラルネットワークを圧縮することが重要です。
この目的を達成するためによく使われる技術は知識蒸留である。
通常、静的事前定義された教師(大きなベースネットワーク)の出力は、生徒(またはより小さな)ネットワークに情報をトレーニングおよび転送するためのソフトラベルとして使用される。
本稿では、元のベースネットワークとより小さな圧縮ネットワークの両方を同時に訓練する学習パラダイムであるAdjoined Networks(AN)を紹介する。
トレーニングアプローチでは、より小さなネットワークのパラメータは、ベースと圧縮されたネットワークの両方で共有されます。
トレーニングパラダイムを使用することで,任意のアーキテクチャを同時に圧縮(学生ネットワーク)し,正規化(教師ネットワーク)することが可能になります。
本稿では,コンピュータビジョンタスクに使用されるCNNベースのアーキテクチャに焦点をあてる。
各種大規模データセット上でトレーニングパラダイムの広範な実験的評価を行う。
ベースネットワークとしてResNet-50を使用すると、画像Netデータセット上の1.8Mパラメータと1.6GFLOPで71.8%のトップ1精度を達成する。
さらに、ニューラルアーキテクチャサーチを用いてANを増強し、より小さなネットワークの各レイヤの幅と重みを共同で学習する訓練パラダイムである微分共役ネットワーク(DAN)を提案する。
DANはImageNet上でResNet-50レベルの精度を3.8\times$より少ないパラメータと2.2\times$より少ないFLOPで達成している。
関連論文リスト
- Convolutional Networks as Extremely Small Foundation Models: Visual Prompting and Theoretical Perspective [1.79487674052027]
本稿では,汎用的なディープネットワークを新たなタスクに適応させるプロンプトモジュールを設計する。
学習理論によって駆動され、同じトレーニングエラーの下でより良く一般化されるように、可能な限りシンプルなモジュールを誘導する。
実際、SDForestは非常に低コストで、CPUでもリアルタイムに実現できる。
論文 参考訳(メタデータ) (2024-09-03T12:34:23Z) - Connection Reduction Is All You Need [0.10878040851637998]
実証的な研究によると、畳み込みレイヤの積み重ねだけではネットワークのトレーニングが良くならない。
レイヤを接続する2つの新しいアルゴリズムを提案する。
ShortNet1は、Baselineよりも5%低いテストエラー率と25%速い推論時間を持っている。
論文 参考訳(メタデータ) (2022-08-02T13:00:35Z) - An Experimental Study of the Impact of Pre-training on the Pruning of a
Convolutional Neural Network [0.0]
近年、ディープニューラルネットワークは様々なアプリケーション領域で広く成功している。
ディープニューラルネットワークは通常、ネットワークの重みに対応する多数のパラメータを含む。
プルーニング法は特に、無関係な重みを識別して取り除くことにより、パラメータセットのサイズを減らそうとしている。
論文 参考訳(メタデータ) (2021-12-15T16:02:15Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Efficient Transfer Learning via Joint Adaptation of Network Architecture
and Weight [66.8543732597723]
近年のニューラルネットワーク探索(NAS)は,十分なネットワーク探索空間を確立することで伝達学習を支援する。
本稿では,2つのモジュールからなる新しいフレームワークを提案する。アーキテクチャトランスファーのためのニューラルアーキテクチャ探索モジュールと,ウェイトトランスファーのためのニューラルウェイト探索モジュールである。
これら2つのモジュールは、減らされたスーパーネットワークに基づいてターゲットタスクを探索するので、ソースタスクのみを訓練する必要がある。
論文 参考訳(メタデータ) (2021-05-19T08:58:04Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Principal Component Networks: Parameter Reduction Early in Training [10.14522349959932]
パラメータ化されたネットワークと同じ性能を示す小さなネットワークを見つける方法を示す。
我々はPCAを用いて、層入力の高分散の基盤を見つけ、これらの方向を用いて層重みを表現する。
また、ResNet-20 PCNは、より高速なトレーニングを行いながら、Deep ResNet-110ネットワークより優れていることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:40:24Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。