論文の概要: Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in
Image Classification
- arxiv url: http://arxiv.org/abs/2010.05300v1
- Date: Sun, 11 Oct 2020 17:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 12:39:14.138492
- Title: Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in
Image Classification
- Title(参考訳): click and focus: 画像分類における空間冗長性低減のための動的アプローチ
- Authors: Yulin Wang, Kangchen Lv, Rui Huang, Shiji Song, Le Yang, Gao Huang
- Abstract要約: ディープ畳み込みニューラルネットワーク (Deep Convolutional Neural Network, CNN) は、高解像度画像で処理することで一般的に改善される。
画像中のすべての領域がタスク関連であるとは限らないという事実に着想を得て,効率的な画像分類を行う新しいフレームワークを提案する。
我々のフレームワークは、最先端の軽量CNNの多くと互換性があり、汎用的で柔軟です。
- 参考スコア(独自算出の注目度): 46.885260723836865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The accuracy of deep convolutional neural networks (CNNs) generally improves
when fueled with high resolution images. However, this often comes at a high
computational cost and high memory footprint. Inspired by the fact that not all
regions in an image are task-relevant, we propose a novel framework that
performs efficient image classification by processing a sequence of relatively
small inputs, which are strategically selected from the original image with
reinforcement learning. Such a dynamic decision process naturally facilitates
adaptive inference at test time, i.e., it can be terminated once the model is
sufficiently confident about its prediction and thus avoids further redundant
computation. Notably, our framework is general and flexible as it is compatible
with most of the state-of-the-art light-weighted CNNs (such as MobileNets,
EfficientNets and RegNets), which can be conveniently deployed as the backbone
feature extractor. Experiments on ImageNet show that our method consistently
improves the computational efficiency of a wide variety of deep models. For
example, it further reduces the average latency of the highly efficient
MobileNet-V3 on an iPhone XS Max by 20% without sacrificing accuracy. Code and
pre-trained models are available at
https://github.com/blackfeather-wang/GFNet-Pytorch.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(cnns)の精度は、高分解能画像により向上する。
しかし、これはしばしば計算コストが高く、メモリフットプリントも高い。
画像中のすべての領域がタスク関連であるとは限らないことに着想を得て,元の画像から戦略的に選択された比較的小さな入力のシーケンスを処理して,効率的な画像分類を行う新しいフレームワークを提案する。
このような動的決定プロセスは、テスト時に適応推論を自然に促進する、すなわち、モデルがその予測に十分に自信を持っていれば終了し、さらなる冗長な計算を避けることができる。
特に、私たちのフレームワークは、バックボーン機能抽出器として便利にデプロイできる最先端の軽量CNN(MobileNets、EfficientNets、RegNetsなど)のほとんどと互換性があり、汎用的で柔軟なものです。
ImageNetの実験により,提案手法は多種多様な深層モデルの計算効率を一貫して向上することが示された。
例えば、iPhone XS Max上の高効率のMobileNet-V3の平均遅延を、精度を犠牲にすることなく20%削減する。
コードと事前トレーニングされたモデルは、https://github.com/blackfeather-wang/gfnet-pytorchで入手できる。
関連論文リスト
- Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Deep Dynamic Scene Deblurring from Optical Flow [53.625999196063574]
汚れは視覚的により快適な写真を提供し、写真がより便利になる。
非均一な曖昧さを数学的にモデル化することは困難である。
我々は,難解な特徴から鮮明な画像を復元する畳み込みニューラルネットワーク(CNN)を開発した。
論文 参考訳(メタデータ) (2023-01-18T06:37:21Z) - Glance and Focus Networks for Dynamic Visual Recognition [36.26856080976052]
画像認識問題を,人間の視覚系を模倣した逐次的粗い特徴学習プロセスとして定式化する。
提案したGlance and Focus Network(GFNet)は,まず低解像度スケールで入力画像の迅速なグローバルな表現を抽出し,その後,より微細な特徴を学習するために,一連の局所的(小さな)領域に戦略的に参画する。
これは、iPhone XS Max上の高効率のMobileNet-V3の平均遅延を、精度を犠牲にすることなく1.3倍削減する。
論文 参考訳(メタデータ) (2022-01-09T14:00:56Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Dynamic Resolution Network [40.64164953983429]
現代のCNNの入力解像度の冗長性については、完全には研究されていない。
本稿では,各サンプルに基づいて動的に分解能を決定できる新しい動的分解能ネットワーク(DRNet)を提案する。
DRNetは34%の精度で同様の性能を実現しているが、ImageNetのResNet-50に比べて10%の精度で1.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2021-06-05T13:48:33Z) - FastSal: a Computationally Efficient Network for Visual Saliency
Prediction [7.742198347952173]
我々は、MobileNetV2が視覚的サリエンシモデルに優れたバックボーンを作り、複雑なデコーダを使わずに有効であることを示す。
また,DeepGaze IIのような計算コストの高いモデルからの知識伝達は,ラベルのないデータセットを擬似ラベリングすることで実現できることを示す。
論文 参考訳(メタデータ) (2020-08-25T16:32:33Z) - Lightweight Modules for Efficient Deep Learning based Image Restoration [20.701733377216932]
そこで我々は,与えられたベースラインモデルの計算的低コストな変種を生成するために,いくつかの軽量な低レベルモジュールを提案する。
その結果,提案するネットワークは,全容量ベースラインと比較して,視覚的に類似した再構成を一貫して出力することがわかった。
論文 参考訳(メタデータ) (2020-07-11T19:35:00Z) - Impact of ImageNet Model Selection on Domain Adaptation [26.016647703500883]
本稿では,異なる画像ネットモデルがドメイン適応問題に対する転送精度に与える影響について検討する。
ImageNetモデルの精度が向上し、ドメイン適応問題の精度が向上する。
また、各ニューラルネットワークのアーキテクチャを調べ、特徴抽出に最適な層を見つける。
論文 参考訳(メタデータ) (2020-02-06T23:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。