論文の概要: DAS: A Deformable Attention to Capture Salient Information in CNNs
- arxiv url: http://arxiv.org/abs/2311.12091v1
- Date: Mon, 20 Nov 2023 18:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 03:25:45.852813
- Title: DAS: A Deformable Attention to Capture Salient Information in CNNs
- Title(参考訳): das: cnnの敬遠情報を取り込むための変形可能な注意
- Authors: Farzad Salajegheh, Nader Asadi, Soroush Saryazdi, Sudhir Mudur
- Abstract要約: 自己注意は、グローバル情報へのアクセスを改善するが、計算オーバーヘッドを増大させる。
本稿では,DASと呼ばれる高速でシンプルな完全畳み込み手法を提案する。
- 参考スコア(独自算出の注目度): 2.321323878201932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNNs) excel in local spatial pattern
recognition. For many vision tasks, such as object recognition and
segmentation, salient information is also present outside CNN's kernel
boundaries. However, CNNs struggle in capturing such relevant information due
to their confined receptive fields. Self-attention can improve a model's access
to global information but increases computational overhead. We present a fast
and simple fully convolutional method called DAS that helps focus attention on
relevant information. It uses deformable convolutions for the location of
pertinent image regions and separable convolutions for efficiency. DAS plugs
into existing CNNs and propagates relevant information using a gating
mechanism. Compared to the O(n^2) computational complexity of transformer-style
attention, DAS is O(n). Our claim is that DAS's ability to pay increased
attention to relevant features results in performance improvements when added
to popular CNNs for Image Classification and Object Detection. For example, DAS
yields an improvement on Stanford Dogs (4.47%), ImageNet (1.91%), and COCO AP
(3.3%) with base ResNet50 backbone. This outperforms other CNN attention
mechanisms while using similar or less FLOPs. Our code will be publicly
available.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は局所的な空間パターン認識に優れている。
オブジェクト認識やセグメンテーションなど、多くの視覚タスクでは、CNNのカーネル境界の外側に詳細な情報が存在する。
しかし、cnnはそのような情報を取り込むのに苦労している。
自己注意は、グローバル情報へのアクセスを改善するが、計算オーバーヘッドを増大させる。
dasと呼ばれる高速で単純な完全畳み込み方式を提案し,関連する情報に注目した。
画像領域の位置の変形可能な畳み込みと効率の分離可能な畳み込みを使用する。
DASは既存のCNNにプラグインし、ゲーティング機構を使用して関連情報を伝達する。
変圧器型注意のO(n^2)計算複雑性と比較すると、DASはO(n)である。
dasが関連する機能に注意を払う能力は、画像分類とオブジェクト検出のために人気のあるcnnに追加されるとパフォーマンスが向上すると主張している。
例えば、DASはStanford Dogs (4.47%)、ImageNet (1.91%)、COCO AP (3.3%)とベースResNet50のバックボーンを改善している。
これにより、同様のFLOPを使用しながら他のCNN注意機構より優れる。
私たちのコードは公開されます。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - SECNN: Squeeze-and-Excitation Convolutional Neural Network for Sentence
Classification [0.0]
畳み込みニューラルネットワーク(CNN)は畳み込みフィルタによってn-gramの特徴を抽出する能力を持つ。
文分類のためのSqueeze-and-Excitation Convolutional Neural Network (SECNN)を提案する。
論文 参考訳(メタデータ) (2023-12-11T03:26:36Z) - A novel feature-scrambling approach reveals the capacity of
convolutional neural networks to learn spatial relations [0.0]
畳み込みニューラルネットワーク(CNN)は、物体認識を解く最も成功したコンピュータビジョンシステムの一つである。
しかし、CNNが実際にどのように決断を下すのか、内部表現の性質や認識戦略が人間とどのように異なるのかは、いまだに理解されていない。
論文 参考訳(メタデータ) (2022-12-12T16:40:29Z) - Learning to ignore: rethinking attention in CNNs [87.01305532842878]
我々は,CNNの注意機構を再構築し,出席する学習ではなく無視することを学ぶことを提案する。
具体的には、シーン内で無関係な情報を明示的に学習し、生成した表現でそれを抑えることを提案する。
論文 参考訳(メタデータ) (2021-11-10T13:47:37Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - A CNN-based Feature Space for Semi-supervised Incremental Learning in
Assisted Living Applications [2.1485350418225244]
トレーニングデータセットから得られた特徴空間を用いて、問題のある画像を自動的にラベル付けする。
その結果、半教師付き漸進的な学習プロセスにより、新しいインスタンスの分類精度を40%向上させることができる。
論文 参考訳(メタデータ) (2020-11-11T12:31:48Z) - Decoding CNN based Object Classifier Using Visualization [6.666597301197889]
CNNのさまざまな畳み込み層で抽出される特徴の種類を視覚化する。
アクティベーションのヒートマップを可視化することは、CNNが画像内の異なるオブジェクトを分類し、ローカライズする方法を理解するのに役立ちます。
論文 参考訳(メタデータ) (2020-07-15T05:01:27Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。