論文の概要: ProtoPFormer: Concentrating on Prototypical Parts in Vision Transformers
for Interpretable Image Recognition
- arxiv url: http://arxiv.org/abs/2208.10431v1
- Date: Mon, 22 Aug 2022 16:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:31:16.520428
- Title: ProtoPFormer: Concentrating on Prototypical Parts in Vision Transformers
for Interpretable Image Recognition
- Title(参考訳): protopformer: 画像認識のための視覚トランスフォーマーの原型的部分に集中する
- Authors: Mengqi Xue, Qihan Huang, Haofei Zhang, Lechao Cheng, Jie Song, Minghui
Wu, Mingli Song
- Abstract要約: プロトタイプ部分ネットワーク(ProtoPNet)は、説明可能な人工知能(XAI)のための自己探索的特性のため、広く注目され、多くのフォローアップ研究が進められている。
視覚変換器(ViT)のバックボーンに直接ProtoPNetを適用する場合、学習されたプロトタイプは背景によって起動される確率が比較的高く、前景にはあまり注意を払わない。
本稿では,プロトタイプ部分変換器(ProtoPFormer)を提案する。
- 参考スコア(独自算出の注目度): 32.34322644235324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prototypical part network (ProtoPNet) has drawn wide attention and boosted
many follow-up studies due to its self-explanatory property for explainable
artificial intelligence (XAI). However, when directly applying ProtoPNet on
vision transformer (ViT) backbones, learned prototypes have a ''distraction''
problem: they have a relatively high probability of being activated by the
background and pay less attention to the foreground. The powerful capability of
modeling long-term dependency makes the transformer-based ProtoPNet hard to
focus on prototypical parts, thus severely impairing its inherent
interpretability. This paper proposes prototypical part transformer
(ProtoPFormer) for appropriately and effectively applying the prototype-based
method with ViTs for interpretable image recognition. The proposed method
introduces global and local prototypes for capturing and highlighting the
representative holistic and partial features of targets according to the
architectural characteristics of ViTs. The global prototypes are adopted to
provide the global view of objects to guide local prototypes to concentrate on
the foreground while eliminating the influence of the background. Afterwards,
local prototypes are explicitly supervised to concentrate on their respective
prototypical visual parts, increasing the overall interpretability. Extensive
experiments demonstrate that our proposed global and local prototypes can
mutually correct each other and jointly make final decisions, which faithfully
and transparently reason the decision-making processes associatively from the
whole and local perspectives, respectively. Moreover, ProtoPFormer consistently
achieves superior performance and visualization results over the
state-of-the-art (SOTA) prototype-based baselines. Our code has been released
at https://github.com/zju-vipa/ProtoPFormer.
- Abstract(参考訳): プロトタイプ部分ネットワーク(ProtoPNet)は、説明可能な人工知能(XAI)のための自己探索的特性のため、多くのフォローアップ研究が注目されている。
しかし、ProtoPNetを視覚変換器(ViT)のバックボーンに直接適用する場合、学習したプロトタイプは、背景によってアクティベートされ、フォアグラウンドに注意を払わない比較的高い確率で'ディストラクション'の問題がある。
長期依存をモデル化する強力な能力により、トランスフォーマーベースのプロトネットは原型的な部分に集中することが難しくなり、固有の解釈性を著しく損なう。
本稿では,vitsを用いたプロトタイプベース手法を画像認識に適宜かつ効果的に適用するための原型的部分変換器(protopformer)を提案する。
提案手法では,ViTのアーキテクチャ特性に応じて,対象の全体的特徴と部分的特徴をキャプチャし,強調するためのグローバルおよびローカルプロトタイプを提案する。
グローバルプロトタイプは、背景の影響を排除しつつ、前景に集中するようローカルプロトタイプを誘導するオブジェクトのグローバルビューを提供するために採用されている。
その後、局所プロトタイプは、それぞれの原型的な視覚部分に集中するように明示的に監督され、全体的な解釈可能性を高める。
大規模な実験により,提案したグローバルプロトタイプとローカルプロトタイプは相互に正し,最終決定を共同で行うことが可能であることが実証された。
さらに、ProtoPFormerは、最先端(SOTA)のプロトタイプベースラインよりも優れたパフォーマンスと視覚化結果を実現している。
私たちのコードはhttps://github.com/zju-vipa/protopformerでリリースされています。
関連論文リスト
- Mind the Gap Between Prototypes and Images in Cross-domain Finetuning [64.97317635355124]
プロトタイプと画像にそれぞれ異なる変換を適用するために,コントラスト型プロトタイプイメージ適応(CoPA)を提案する。
Meta-Datasetの実験では、CoPAが最先端のパフォーマンスをより効率的に達成できることが示されている。
論文 参考訳(メタデータ) (2024-10-16T11:42:11Z) - Enhanced Prototypical Part Network (EPPNet) For Explainable Image Classification Via Prototypes [16.528373143163275]
画像分類のためのEPPNet(Enhanced Prototypeal Part Network)を導入する。
EPPNetは、分類結果を説明するために使用可能な関連するプロトタイプを発見しながら、強力なパフォーマンスを実現している。
CUB-200-2011 データセットによる評価の結果,EPPNet は最先端の xAI ベースの手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-08T17:26:56Z) - Query-guided Prototype Evolution Network for Few-Shot Segmentation [85.75516116674771]
本稿では,前景と背景のプロトタイプの生成プロセスにクエリ機能を統合する新しい手法を提案する。
PASCAL-$5i$とミラーリング-$20i$データセットの実験結果は、QPENetが達成した実質的な拡張を示している。
論文 参考訳(メタデータ) (2024-03-11T07:50:40Z) - ProtoP-OD: Explainable Object Detection with Prototypical Parts [0.0]
本稿では、原型的局所特徴を構築し、オブジェクト検出に使用するトランスフォーマーの検出拡張を提案する。
提案した拡張は、プロトタイプアクティベーションの離散化表現を演算するボトルネックモジュール、プロトタイプネックで構成されている。
論文 参考訳(メタデータ) (2024-02-29T13:25:15Z) - Mixture of Gaussian-distributed Prototypes with Generative Modelling for Interpretable and Trustworthy Image Recognition [15.685927265270085]
ガウス分布プロトタイプ(MGProto)の混合(mixture of Gaussian-Distributed Prototypes)と呼ばれるプロトタイプ分布を学習するための新しい生成パラダイムを提案する。
MGProtoは最先端の画像認識とOoD検出性能を実現し,解釈可能性の向上を実現している。
論文 参考訳(メタデータ) (2023-11-30T11:01:37Z) - ProtoArgNet: Interpretable Image Classification with Super-Prototypes and Argumentation [Technical Report] [17.223442899324482]
ProtoArgNetは、原型的部分学習の精神における画像分類のための、解釈可能な新しいディープニューラルネットワークである。
ProtoArgNetは、prototypeal-partsを統一されたクラス表現に組み合わせたスーパープロトタイプを使用する。
我々は、ProtoArgNetが最先端のプロトタイプ・パートラーニングアプローチより優れているいくつかのデータセットを実証する。
論文 参考訳(メタデータ) (2023-11-26T21:52:47Z) - Pixel-Grounded Prototypical Part Networks [33.408034817820834]
原型部分ニューラルネットワーク(ProtoPartNN)は、機械学習に対する本質的に解釈可能なアプローチである。
これらの根底にある問題からの減退は、可視化の多彩な性質と直観への過度な依存によるものである、と我々は主張する。
本稿では,意味的ローカライゼーションのための新しい受容的フィールドベースアーキテクチャ制約と,ProtoPartNNに対する原理的ピクセル空間マッピングを提案する。
論文 参考訳(メタデータ) (2023-09-25T21:09:49Z) - Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:48:57Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。