論文の概要: Improved Residual Networks for Image and Video Recognition
- arxiv url: http://arxiv.org/abs/2004.04989v1
- Date: Fri, 10 Apr 2020 11:09:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 21:11:56.380678
- Title: Improved Residual Networks for Image and Video Recognition
- Title(参考訳): 画像・映像認識のための残像ネットワークの改良
- Authors: Ionut Cosmin Duta, Li Liu, Fan Zhu, Ling Shao
- Abstract要約: ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
- 参考スコア(独自算出の注目度): 98.10703825716142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Residual networks (ResNets) represent a powerful type of convolutional neural
network (CNN) architecture, widely adopted and used in various tasks. In this
work we propose an improved version of ResNets. Our proposed improvements
address all three main components of a ResNet: the flow of information through
the network layers, the residual building block, and the projection shortcut.
We are able to show consistent improvements in accuracy and learning
convergence over the baseline. For instance, on ImageNet dataset, using the
ResNet with 50 layers, for top-1 accuracy we can report a 1.19% improvement
over the baseline in one setting and around 2% boost in another. Importantly,
these improvements are obtained without increasing the model complexity. Our
proposed approach allows us to train extremely deep networks, while the
baseline shows severe optimization issues. We report results on three tasks
over six datasets: image classification (ImageNet, CIFAR-10 and CIFAR-100),
object detection (COCO) and video action recognition (Kinetics-400 and
Something-Something-v2). In the deep learning era, we establish a new milestone
for the depth of a CNN. We successfully train a 404-layer deep CNN on the
ImageNet dataset and a 3002-layer network on CIFAR-10 and CIFAR-100, while the
baseline is not able to converge at such extreme depths. Code is available at:
https://github.com/iduta/iresnet
- Abstract(参考訳): 残留ネットワーク(resnets)は、cnn(convolutional neural network)アーキテクチャの強力なタイプであり、様々なタスクで広く採用され使用される。
本稿では,ResNetsの改良版を提案する。
提案した改良は,ResNetの3つの主要コンポーネント,すなわちネットワーク層を流れる情報の流れ,残りのビルディングブロック,およびプロジェクションショートカットに対処する。
ベースライン上での精度と学習収束の一貫性のある改善を示すことができます。
例えば、imagenetデータセットでは、50レイヤのresnetを使用して、トップ1の精度でベースラインよりも1.19%改善され、もう1つの設定で約2%向上しています。
重要なことに、これらの改善はモデルの複雑さを増すことなく得られる。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳しい最適化問題を示す。
画像分類(ImageNet, CIFAR-10, CIFAR-100)、オブジェクト検出(COCO)、ビデオアクション認識(Kinetics-400, Something-Something-v2)の3つの課題について報告する。
ディープラーニングの時代、私たちはCNNの深みのための新しいマイルストーンを確立しました。
我々は、ImageNetデータセット上の404層深度CNNと、CIFAR-10およびCIFAR-100上の3002層ネットワークのトレーニングに成功した。
コードは、https://github.com/iduta/iresnetで入手できる。
関連論文リスト
- Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness
with Dataset Reinforcement [68.44100784364987]
本研究では、強化データセット上でトレーニングされたモデルアーキテクチャの精度が、ユーザにとって追加のトレーニングコストなしで向上するように、データセットを改善する戦略を提案する。
ImageNet+と呼ばれるImageNetトレーニングデータセットの強化バージョンと、強化されたデータセットCIFAR-100+、Flowers-102+、Food-101+を作成します。
ImageNet+でトレーニングされたモデルは、より正確で、堅牢で、校正され、下流タスクにうまく転送されます。
論文 参考訳(メタデータ) (2023-03-15T23:10:17Z) - Multipod Convolutional Network [2.1485350418225244]
我々は3つの並列ポッドネットワーク(TripodNet)が一般的に使われているオブジェクト認識データセットにおいて最良の結果をもたらすことを実験的に観察した。
TripodNetはCIFAR-10とImageNetデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-10-03T02:37:57Z) - Connection Reduction Is All You Need [0.10878040851637998]
実証的な研究によると、畳み込みレイヤの積み重ねだけではネットワークのトレーニングが良くならない。
レイヤを接続する2つの新しいアルゴリズムを提案する。
ShortNet1は、Baselineよりも5%低いテストエラー率と25%速い推論時間を持っている。
論文 参考訳(メタデータ) (2022-08-02T13:00:35Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Evolutionary Neural Cascade Search across Supernetworks [68.8204255655161]
ENCAS - Evolutionary Neural Cascade Searchを紹介する。
ENCASは、複数の事前訓練されたスーパーネットを探索するために使用することができる。
我々は、一般的なコンピュータビジョンベンチマークでEMCASをテストする。
論文 参考訳(メタデータ) (2022-03-08T11:06:01Z) - ThreshNet: An Efficient DenseNet using Threshold Mechanism to Reduce
Connections [1.2542322096299672]
本稿では,接続の方法をさらに最適化するためのしきい値機構を用いた新しいネットワークアーキテクチャを提案する。
ThreshNetは、DenseNetと比較して最大60%の推論時間を短縮し、トレーニング速度を最大35%高速化し、エラー率を20%削減する。
論文 参考訳(メタデータ) (2022-01-09T13:52:16Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Towards Lossless Binary Convolutional Neural Networks Using Piecewise
Approximation [4.023728681102073]
CNNは算術演算の数とメモリストレージのサイズを大幅に減らすことができる。
しかし、単一のバイナリCNNと複数のバイナリCNNの精度劣化は、現代のアーキテクチャでは受け入れられない。
完全精度の重みとアクティベーションを近似することにより、精度の低下を低減できる複数のバイナリCNNに対するPiecewise Approximationスキームを提案する。
論文 参考訳(メタデータ) (2020-08-08T13:32:33Z) - Pyramidal Convolution: Rethinking Convolutional Neural Networks for
Visual Recognition [98.10703825716142]
この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。
PyConvをベースとした,画像分類,映像行動分類/認識,オブジェクト検出,意味的画像分割/パーシングの4つの主要なタスクについて,異なるアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-06-20T10:19:29Z) - Adjoined Networks: A Training Paradigm with Applications to Network
Compression [3.995047443480282]
本稿では、元のベースネットワークとより小さな圧縮ネットワークの両方を同時にトレーニングする学習パラダイムであるAdjoined Networks(AN)を紹介する。
ベースネットワークとしてResNet-50を使用すると、画像Netデータセット上の1.8Mパラメータと1.6GFLOPで71.8%のトップ-1の精度が達成される。
我々は,ニューラルネットワーク探索を用いて,より小さなネットワークの各レイヤの幅と重みを共同で学習し,ANを増強する訓練パラダイムであるDaniable Adjoined Networks (DAN)を提案する。
論文 参考訳(メタデータ) (2020-06-10T02:48:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。