論文の概要: Multi-Head Explainer: A General Framework to Improve Explainability in CNNs and Transformers
- arxiv url: http://arxiv.org/abs/2501.01311v1
- Date: Thu, 02 Jan 2025 15:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:22.557546
- Title: Multi-Head Explainer: A General Framework to Improve Explainability in CNNs and Transformers
- Title(参考訳): Multi-Head Explainer: CNNとTransformerの説明可能性を改善する汎用フレームワーク
- Authors: Bohang Sun, Pietro Liò,
- Abstract要約: MHEX(Multi-Head Explainer)は、CNNとTransformerベースのモデルの説明可能性と精度を高める汎用的でモジュール化されたフレームワークである。
MHEXは3つのコアコンポーネントで構成されている。タスク関連機能を動的に強調するアテンションゲート、ターゲットクラスに関連するきめ細かい詳細をキャプチャするために初期レイヤをガイドするDeep Supervision、洗練されたローカル表現とグローバル表現を統一して包括的なサリエンシマップを生成する等価マトリックスである。
- 参考スコア(独自算出の注目度): 17.94275229960658
- License:
- Abstract: In this study, we introduce the Multi-Head Explainer (MHEX), a versatile and modular framework that enhances both the explainability and accuracy of Convolutional Neural Networks (CNNs) and Transformer-based models. MHEX consists of three core components: an Attention Gate that dynamically highlights task-relevant features, Deep Supervision that guides early layers to capture fine-grained details pertinent to the target class, and an Equivalent Matrix that unifies refined local and global representations to generate comprehensive saliency maps. Our approach demonstrates superior compatibility, enabling effortless integration into existing residual networks like ResNet and Transformer architectures such as BERT with minimal modifications. Extensive experiments on benchmark datasets in medical imaging and text classification show that MHEX not only improves classification accuracy but also produces highly interpretable and detailed saliency scores.
- Abstract(参考訳): 本研究では,畳み込みニューラルネットワーク(CNN)とトランスフォーマーに基づくモデルの説明可能性と精度を両立させる,多面的かつモジュラーなフレームワークであるMHEXを紹介する。
MHEXは3つのコアコンポーネントで構成されている。タスク関連機能を動的に強調するアテンションゲート、ターゲットクラスに関連するきめ細かい詳細をキャプチャするために初期レイヤをガイドするDeep Supervision、洗練されたローカル表現とグローバル表現を統一して包括的なサリエンシマップを生成する等価マトリックスである。
提案手法は互換性が向上し,ResNetやBERTなどのトランスフォーマーアーキテクチャなどの既存の残余ネットワークに最小限の修正でシームレスに統合できる。
医用画像およびテキスト分類におけるベンチマークデータセットの大規模な実験により、MHEXは分類精度を向上するだけでなく、高度に解釈可能で詳細な唾液度スコアも生成することが示された。
関連論文リスト
- Investigation of Hierarchical Spectral Vision Transformer Architecture for Classification of Hyperspectral Imagery [7.839253919389809]
視覚変換器の理論的正当性は、HSI分類においてCNNアーキテクチャよりも優れている。
HSI分類に適した統合階層型スペクトルビジョン変換器アーキテクチャについて検討した。
視覚変換器の独特な強さは、その網羅的なアーキテクチャに起因すると結論付けている。
論文 参考訳(メタデータ) (2024-09-14T00:53:13Z) - Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では,ステップワイズ・パッチ・マージ(SPM)と呼ばれる新しい手法を提案する。
ImageNet-1K、COCO、ADE20Kなどのベンチマークデータセットで実施された大規模な実験は、SPMが様々なモデルの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - HyperKAN: Kolmogorov-Arnold Networks make Hyperspectral Image Classificators Smarter [0.0699049312989311]
本稿では,従来のネットワークの線形層と畳み込み層をKANベースのネットワークに置き換えることを提案する。
これらの修正により,高スペクトルリモートセンシング画像の画素単位の分類精度が大幅に向上した。
最も大きな効果は、スペクトルデータのみを扱う畳み込みネットワークにおいて達成された。
論文 参考訳(メタデータ) (2024-07-07T06:36:09Z) - CMTNet: Convolutional Meets Transformer Network for Hyperspectral Images Classification [3.821081081400729]
現在の畳み込みニューラルネットワーク(CNN)は、ハイパースペクトルデータの局所的な特徴に焦点を当てている。
Transformerフレームワークは、ハイパースペクトル画像からグローバルな特徴を抽出する。
本研究は、CMTNet(Convolutional Meet Transformer Network)を紹介する。
論文 参考訳(メタデータ) (2024-06-20T07:56:51Z) - SENetV2: Aggregated dense layer for channelwise and global
representations [0.0]
我々は,Squeeze残余モジュール内に,多分岐密度層である新しい多層パーセプトロンを導入する。
この融合により、チャネルワイドパターンを捕捉し、グローバルな知識を持つネットワークの能力が向上する。
ベンチマークデータセットの広範な実験を行い、モデルを検証し、確立したアーキテクチャと比較する。
論文 参考訳(メタデータ) (2023-11-17T14:10:57Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Simple and Efficient Heterogeneous Graph Neural Network [55.56564522532328]
不均一グラフニューラルネットワーク(HGNN)は、不均一グラフの豊富な構造的および意味的な情報をノード表現に埋め込む強力な能力を持つ。
既存のHGNNは、同種グラフ上のグラフニューラルネットワーク(GNN)から多くのメカニズム、特に注意機構と多層構造を継承する。
本稿では,これらのメカニズムを詳細に検討し,簡便かつ効率的なヘテロジニアスグラフニューラルネットワーク(SeHGNN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T10:01:46Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。