論文の概要: CA-Stream: Attention-based pooling for interpretable image recognition
- arxiv url: http://arxiv.org/abs/2404.14996v1
- Date: Tue, 23 Apr 2024 12:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:01:50.120306
- Title: CA-Stream: Attention-based pooling for interpretable image recognition
- Title(参考訳): CA-Stream: 解釈可能な画像認識のための注意に基づくプーリング
- Authors: Felipe Torres, Hanwei Zhang, Ronan Sicre, Stéphane Ayache, Yannis Avrithis,
- Abstract要約: 本稿では,GAP(Global Average Pooling)を推論時に置き換えるためのアテンションベースのプール機構を提案する。
このメカニズムは、CA-Stream(Cross-Attention Stream)と呼ばれ、異なるネットワーク深さで機能と相互作用するクロスアテンションブロックのストリームで構成されている。
- 参考スコア(独自算出の注目度): 12.3307305601936
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Explanations obtained from transformer-based architectures in the form of raw attention, can be seen as a class-agnostic saliency map. Additionally, attention-based pooling serves as a form of masking the in feature space. Motivated by this observation, we design an attention-based pooling mechanism intended to replace Global Average Pooling (GAP) at inference. This mechanism, called Cross-Attention Stream (CA-Stream), comprises a stream of cross attention blocks interacting with features at different network depths. CA-Stream enhances interpretability in models, while preserving recognition performance.
- Abstract(参考訳): トランスフォーマーに基づくアーキテクチャから得られた説明は、クラス非依存のサリエンシマップと見なすことができる。
さらに、注意に基づくプーリングは、特徴空間をマスキングする形態として機能する。
本研究の目的は,GAP(Global Average Pooling)を推論時に置き換えるためのアテンションベースのプール機構を設計することである。
このメカニズムは、CA-Stream(Cross-Attention Stream)と呼ばれ、異なるネットワーク深さで機能と相互作用するクロスアテンションブロックのストリームで構成されている。
CA-Streamは、認識性能を維持しながら、モデルの解釈可能性を高める。
関連論文リスト
- ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - MCA: Moment Channel Attention Networks [10.780493635885225]
ニューラルネットワーク内の特徴写像の統計モーメントについて検討する。
本研究は,モデルキャパシティ向上における高次モーメントの重要性を明らかにする。
モーメントチャネル注意(MCA)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-04T04:02:59Z) - Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:48:57Z) - CAT: Learning to Collaborate Channel and Spatial Attention from
Multi-Information Fusion [23.72040577828098]
本稿では,空間とチャネルのアテンション間の協調を活性化する「CAT」と呼ばれるプラグイン・アンド・プレイアテンション・モジュールを提案する。
具体的には、特徴を訓練可能な係数(コラ因子)として表現し、異なる注意モジュールの寄与を適応的に組み合わせる。
我々のCATは、オブジェクト検出、インスタンスセグメンテーション、画像分類において、既存の最先端の注意機構よりも優れています。
論文 参考訳(メタデータ) (2022-12-13T02:34:10Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Feature Binding with Category-Dependant MixUp for Semantic Segmentation
and Adversarial Robustness [30.250946586873884]
本稿では,競合する仮説から生じる干渉を効果的に解決するために,畳み込みニューラルネットワークを訓練する戦略を提案する。
この前提は機能バインディングの概念に基づいており、これは、ネットワーク内の層と空間にまたがるアクティベーションがうまく統合され、正しい推論決定に達するプロセスとして定義される。
論文 参考訳(メタデータ) (2020-08-13T03:20:01Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。