論文の概要: Multi-Glimpse Network: A Robust and Efficient Classification
Architecture based on Recurrent Downsampled Attention
- arxiv url: http://arxiv.org/abs/2111.02018v1
- Date: Wed, 3 Nov 2021 04:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 22:08:44.191281
- Title: Multi-Glimpse Network: A Robust and Efficient Classification
Architecture based on Recurrent Downsampled Attention
- Title(参考訳): Multi-Glimpse Network: 繰り返しダウンサンプル注意に基づくロバストかつ効率的な分類アーキテクチャ
- Authors: Sia Huat Tan, Runpei Dong, Kaisheng Ma
- Abstract要約: 本稿では,高速計算の課題を解決するために,エンドツーエンドのトレーニング可能なマルチグリッドネットワーク(MGNet)を提案する。
具体的には、MGNetは、画像のタスク関連領域を順次選択し、最終予測のために収集されたすべての情報を適応的に結合する。
ImageNet100の実験では、単一のフィードフォワード方式を改善するために、繰り返しダウンサンプリングされたアテンションメカニズムの可能性を実証した。
- 参考スコア(独自算出の注目度): 7.7495380209251685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most feedforward convolutional neural networks spend roughly the same efforts
for each pixel. Yet human visual recognition is an interaction between eye
movements and spatial attention, which we will have several glimpses of an
object in different regions. Inspired by this observation, we propose an
end-to-end trainable Multi-Glimpse Network (MGNet) which aims to tackle the
challenges of high computation and the lack of robustness based on recurrent
downsampled attention mechanism. Specifically, MGNet sequentially selects
task-relevant regions of an image to focus on and then adaptively combines all
collected information for the final prediction. MGNet expresses strong
resistance against adversarial attacks and common corruptions with less
computation. Also, MGNet is inherently more interpretable as it explicitly
informs us where it focuses during each iteration. Our experiments on
ImageNet100 demonstrate the potential of recurrent downsampled attention
mechanisms to improve a single feedforward manner. For example, MGNet improves
4.76% accuracy on average in common corruptions with only 36.9% computational
cost. Moreover, while the baseline incurs an accuracy drop to 7.6%, MGNet
manages to maintain 44.2% accuracy in the same PGD attack strength with
ResNet-50 backbone. Our code is available at
https://github.com/siahuat0727/MGNet.
- Abstract(参考訳): ほとんどのフィードフォワード畳み込みニューラルネットワークは、各ピクセルに対してほぼ同じ労力を費やす。
しかし、人間の視覚認識は、眼球運動と空間的注意の間の相互作用であり、異なる領域の物体を垣間見ることができる。
そこで本研究では,この観測結果に触発されて,高計算の課題と繰り返しダウンサンプリングされた注意機構に基づくロバスト性の欠如に対処することを目的とした,エンドツーエンドのトレーニング可能なマルチグリンプネットワーク(mgnet)を提案する。
特にmgnetは、画像のタスク関連領域を順次選択し、最終予測のために収集された全ての情報を適応的に結合する。
MGNetは、より少ない計算で敵攻撃や一般的な汚職に対して強い抵抗を示す。
また、mgnetは本質的に解釈しやすいので、各イテレーションで焦点を合わせる場所を明示的に知らせてくれます。
imagenet100における実験は, フィードフォワード方式を改善するために, 繰り返しダウンサンプリングされた注意機構の可能性を実証するものである。
例えば、mgnetは平均で4.76%の精度を向上し、計算コストは36.9%である。
さらに、ベースラインの精度は7.6%に低下するが、MGNetはResNet-50バックボーンと同じPGD攻撃強度で44.2%の精度を維持している。
私たちのコードはhttps://github.com/siahuat0727/mgnetで利用可能です。
関連論文リスト
- VMGNet: A Low Computational Complexity Robotic Grasping Network Based on VMamba with Multi-Scale Feature Fusion [7.989204276876628]
ロボットグルーピングのための低計算量・高精度モデルVMGNetを提案する。
まず,視覚状態空間をロボットの把握領域に導入し,線形計算複雑性を実現する。
モデルの精度を向上させるために,効率よく軽量なマルチスケール機能融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:07:17Z) - Analyzing the Traffic of MANETs using Graph Neural Networks [0.0]
本研究は,人気のあるGNNフレームワークであるPyTorch GeometricにMANETデータセットを実装した。
GNNを用いてMANETのトラフィックを解析する方法を示す。
我々は、MANET上でのGNNの性能と効率を測定するために、いくつかの評価指標を解釈する。
論文 参考訳(メタデータ) (2022-12-17T18:13:20Z) - Rega-Net:Retina Gabor Attention for Deep Convolutional Neural Networks [8.068451210598676]
本稿では,レガネット(Rega-net)という新しいアテンション手法を提案する。
ヒト網膜のメカニズムにインスパイアされた我々は、ヒト網膜の非一様分布構造に類似した畳み込みカーネルを設計する。
論文 参考訳(メタデータ) (2022-11-23T04:24:21Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - ClusterGNN: Cluster-based Coarse-to-Fine Graph Neural Network for
Efficient Feature Matching [15.620335576962475]
ClusterGNNは、特徴マッチングタスクを学習するためのクラスタで動作する、注目のGNNアーキテクチャである。
提案手法では,59.7%のランタイム削減,58.4%のメモリ消費削減を実現している。
論文 参考訳(メタデータ) (2022-04-25T14:43:15Z) - MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs [55.66953093401889]
Masked Graph Autoencoder (MGAE) フレームワークは、グラフ構造データの効果的な学習を行う。
自己指導型学習から洞察を得て、私たちはランダムに大量のエッジを隠蔽し、トレーニング中に欠落したエッジを再構築しようとします。
論文 参考訳(メタデータ) (2022-01-07T16:48:07Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in
Image Classification [46.885260723836865]
ディープ畳み込みニューラルネットワーク (Deep Convolutional Neural Network, CNN) は、高解像度画像で処理することで一般的に改善される。
画像中のすべての領域がタスク関連であるとは限らないという事実に着想を得て,効率的な画像分類を行う新しいフレームワークを提案する。
我々のフレームワークは、最先端の軽量CNNの多くと互換性があり、汎用的で柔軟です。
論文 参考訳(メタデータ) (2020-10-11T17:55:06Z) - GSNet: Joint Vehicle Pose and Shape Reconstruction with Geometrical and
Scene-aware Supervision [65.13980934546957]
GSNet(Geometric and Scene-aware Network)と名付けられた新しいエンドツーエンドフレームワークを提案する。
共同で6DoFのポーズを推定し、都会のストリートビューから詳細な3Dカー形状を再構築する。
我々は,最大マルチタスクApolloCar3Dベンチマーク上でGSNetを評価し,定量的かつ定性的に最先端の性能を達成する。
論文 参考訳(メタデータ) (2020-07-26T13:05:55Z) - EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning [82.54669314604097]
EagleEyeは、適応型バッチ正規化に基づく、シンプルだが効率的な評価コンポーネントである。
異なる破砕された構造と最終的な精度の間に強い相関関係が明らかになる。
このモジュールは、既存のプルーニングアルゴリズムをプラグインし改善するためにも一般的である。
論文 参考訳(メタデータ) (2020-07-06T01:32:31Z) - AdderNet: Do We Really Need Multiplications in Deep Learning? [159.174891462064]
我々は、深層ニューラルネットワークにおける膨大な乗算を、計算コストを削減するためにはるかに安価な加算のために取引するための加算器ネットワーク(AdderNets)を提案する。
本稿では,AdderNets のバックプロパゲーション手法を提案する。
その結果、提案されたAdderNetsは、ImageNetデータセット上でResNet-50を使用して、74.9%のTop-1精度91.7%のTop-5精度を達成することができる。
論文 参考訳(メタデータ) (2019-12-31T06:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。