論文の概要: Glance and Focus Networks for Dynamic Visual Recognition
- arxiv url: http://arxiv.org/abs/2201.03014v1
- Date: Sun, 9 Jan 2022 14:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 14:21:23.863350
- Title: Glance and Focus Networks for Dynamic Visual Recognition
- Title(参考訳): 動的視覚認識のためのGlance and Focus Networks
- Authors: Gao Huang, Yulin Wang, Kangchen Lv, Haojun Jiang, Wenhui Huang,
Pengfei Qi, Shiji Song
- Abstract要約: 画像認識問題を,人間の視覚系を模倣した逐次的粗い特徴学習プロセスとして定式化する。
提案したGlance and Focus Network(GFNet)は,まず低解像度スケールで入力画像の迅速なグローバルな表現を抽出し,その後,より微細な特徴を学習するために,一連の局所的(小さな)領域に戦略的に参画する。
これは、iPhone XS Max上の高効率のMobileNet-V3の平均遅延を、精度を犠牲にすることなく1.3倍削減する。
- 参考スコア(独自算出の注目度): 36.26856080976052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial redundancy widely exists in visual recognition tasks, i.e.,
discriminative features in an image or video frame usually correspond to only a
subset of pixels, while the remaining regions are irrelevant to the task at
hand. Therefore, static models which process all the pixels with an equal
amount of computation result in considerable redundancy in terms of time and
space consumption. In this paper, we formulate the image recognition problem as
a sequential coarse-to-fine feature learning process, mimicking the human
visual system. Specifically, the proposed Glance and Focus Network (GFNet)
first extracts a quick global representation of the input image at a low
resolution scale, and then strategically attends to a series of salient (small)
regions to learn finer features. The sequential process naturally facilitates
adaptive inference at test time, as it can be terminated once the model is
sufficiently confident about its prediction, avoiding further redundant
computation. It is worth noting that the problem of locating discriminant
regions in our model is formulated as a reinforcement learning task, thus
requiring no additional manual annotations other than classification labels.
GFNet is general and flexible as it is compatible with any off-the-shelf
backbone models (such as MobileNets, EfficientNets and TSM), which can be
conveniently deployed as the feature extractor. Extensive experiments on a
variety of image classification and video recognition tasks and with various
backbone models demonstrate the remarkable efficiency of our method. For
example, it reduces the average latency of the highly efficient MobileNet-V3 on
an iPhone XS Max by 1.3x without sacrificing accuracy. Code and pre-trained
models are available at https://github.com/blackfeather-wang/GFNet-Pytorch.
- Abstract(参考訳): 空間的冗長性は、視覚認識タスク、すなわち画像またはビデオフレームの識別的特徴が通常ピクセルのサブセットのみに対応し、残りの領域は手元のタスクとは無関係である。
したがって、全てのピクセルを同じ量の計算量で処理する静的モデルは、時間と空間消費の点でかなりの冗長性をもたらす。
本稿では,人間の視覚システムを模倣した逐次的粗い特徴学習プロセスとして画像認識問題を定式化する。
具体的には、提案したGlance and Focus Network (GFNet) は、まず、低解像度スケールで入力画像の迅速なグローバルな表現を抽出し、その後、より詳細な特徴を学習するために、一連の健全な(小さな)領域に戦略的に参画する。
シーケンシャルなプロセスは、モデルがその予測に十分な自信を持てば、さらに冗長な計算を避けることができるので、テスト時に適応的推論を自然に促進する。
本モデルにおける識別領域の特定問題は強化学習タスクとして定式化されているので,分類ラベル以外の手作業による追加アノテーションは不要である。
GFNetは、すべての既製のバックボーンモデル(MobileNets、EfficientNets、TSMなど)と互換性があるため、汎用的で柔軟性がある。
様々な画像分類・映像認識タスクおよび様々なバックボーンモデルを用いた広範囲な実験により,本手法の顕著な効率性を示した。
例えば、iPhone XS Max上の高効率のMobileNet-V3の平均遅延を、精度を犠牲にすることなく1.3倍削減する。
コードと事前トレーニングされたモデルは、https://github.com/blackfeather-wang/gfnet-pytorchで入手できる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Filling Missing Values Matters for Range Image-Based Point Cloud Segmentation [12.62718910894575]
ポイントクラウドセグメンテーション(PCS)は、ロボットの知覚とナビゲーションタスクにおいて重要な役割を果たす。
大規模屋外点雲を効率的に理解するために、その範囲画像表現が一般的である。
しかし、範囲画像の望ましくない欠落値は、物体の形状やパターンを損なう。
この問題は、オブジェクトからコヒーレントで完全な幾何学的情報を学ぶ際に、モデルにとって困難を生じさせる。
論文 参考訳(メタデータ) (2024-05-16T15:13:42Z) - Discriminative Feature Learning through Feature Distance Loss [0.0]
本研究は,多様なリッチベースモデルを組み合わせて,異なる重要な画像領域に着目して分類する手法を提案する。
ベンチマーク畳み込みニューラルネットワーク(VGG16, ResNet, AlexNet)、一般的なデータセット(Cifar10, Cifar100, miniImageNet, NEU, BSD, TEX)の実験は、我々の手法の有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2022-05-23T20:01:32Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - DenserNet: Weakly Supervised Visual Localization Using Multi-scale
Feature Aggregation [7.2531609092488445]
画像表現の異なる意味レベルで特徴マップを集約する畳み込みニューラルネットワークアーキテクチャを開発する。
第二に、我々のモデルは、正および負のGPSタグ付き画像対以外の画素レベルのアノテーションなしで、エンドツーエンドで訓練されている。
第3に、アーキテクチャが計算中に特徴やパラメータを共有しているため、計算効率がよい。
論文 参考訳(メタデータ) (2020-12-04T02:16:47Z) - Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in
Image Classification [46.885260723836865]
ディープ畳み込みニューラルネットワーク (Deep Convolutional Neural Network, CNN) は、高解像度画像で処理することで一般的に改善される。
画像中のすべての領域がタスク関連であるとは限らないという事実に着想を得て,効率的な画像分類を行う新しいフレームワークを提案する。
我々のフレームワークは、最先端の軽量CNNの多くと互換性があり、汎用的で柔軟です。
論文 参考訳(メタデータ) (2020-10-11T17:55:06Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z) - Evolving Losses for Unsupervised Video Representation Learning [91.2683362199263]
大規模未ラベル映像データから映像表現を学習する新しい手法を提案する。
提案した教師なし表現学習では,単一のRGBネットワークが実現し,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-02-26T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。