論文の概要: TextCAM: Explaining Class Activation Map with Text
- arxiv url: http://arxiv.org/abs/2510.01004v1
- Date: Wed, 01 Oct 2025 15:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.634293
- Title: TextCAM: Explaining Class Activation Map with Text
- Title(参考訳): TextCAM: テキストによるクラスアクティベーションマップの説明
- Authors: Qiming Zhao, Xingjian Li, Xiaoyu Cao, Xiaolong Wu, Min Xu,
- Abstract要約: 本稿では,クラスアクティベーションマッピング(Class Activation Mapping, CAM)とその変種が主流である深層視覚モデルに焦点をあてる。
我々は,CAMを自然言語で強化する新しい説明フレームワークであるTextCAMを提案する。
CLIP埋め込みと線形判別分析を用いてチャネルレベルの意味表現を導出し,それらをCAM重みで集約する。
このことは、モデルがどこに出席し、どのような視覚的属性がその決定を支援するかを共同で定義する、という説明をもたらす。
- 参考スコア(独自算出の注目度): 24.927593721256077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have achieved remarkable success across domains but remain difficult to interpret, limiting their trustworthiness in high-stakes applications. This paper focuses on deep vision models, for which a dominant line of explainability methods are Class Activation Mapping (CAM) and its variants working by highlighting spatial regions that drive predictions. We figure out that CAM provides little semantic insight into what attributes underlie these activations. To address this limitation, we propose TextCAM, a novel explanation framework that enriches CAM with natural languages. TextCAM combines the precise spatial localization of CAM with the semantic alignment of vision-language models (VLMs). Specifically, we derive channel-level semantic representations using CLIP embeddings and linear discriminant analysis, and aggregate them with CAM weights to produce textual descriptions of salient visual evidence. This yields explanations that jointly specify where the model attends and what visual attributes likely support its decision. We further extend TextCAM to generate feature channels into semantically coherent groups, enabling more fine-grained visual-textual explanations. Experiments on ImageNet, CLEVR, and CUB demonstrate that TextCAM produces faithful and interpretable rationales that improve human understanding, detect spurious correlations, and preserve model fidelity.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)はドメイン間で顕著な成功を収めているが、解釈が難しいままであり、高度なアプリケーションにおける信頼性を制限している。
本稿では,クラスアクティベーションマッピング(CAM, Class Activation Mapping, クラスアクティベーションマッピング, クラスアクティベーションマッピング, クラスアクティベーションマッピング, クラスアクティベーションマッピング, クラスアクティベーションマッピング, クラスアクティベーションマッピング, クラスアクティベーションマッピング, クラスアクティベーションマッピング, クラスアクティベーションマッピング, クラスアクティベーションマッピング, クラスアクティベーションマッピング)を主軸とした深部視覚モデルについて述べる。
CAMは、これらのアクティベーションの基盤となる属性について、意味的な洞察をほとんど提供しないことがわかった。
この制限に対処するために,CAMを自然言語で強化する新しい説明フレームワークであるTextCAMを提案する。
TextCAMは、CAMの正確な空間的局所化と視覚言語モデル(VLM)のセマンティックアライメントを組み合わせる。
具体的には、CLIP埋め込みと線形識別分析を用いてチャネルレベルの意味表現を導出し、それらをCAM重みで集約し、健全な視覚的証拠のテキスト記述を生成する。
このことは、モデルがどこに出席し、どのような視覚的属性がその決定を支援するかを共同で定義する、という説明をもたらす。
さらに、TextCAMを拡張して、機能チャネルをセマンティック・コヒーレントなグループに生成し、よりきめ細かい視覚的・テキスト的説明を可能にします。
ImageNet、CLEVR、CUBの実験は、TextCAMが人間の理解を改善し、素早い相関を検知し、モデルの忠実さを保ち、忠実で解釈可能な理性を生み出すことを示した。
関連論文リスト
- Integrative CAM: Adaptive Layer Fusion for Comprehensive Interpretation of CNNs [2.58561853556421]
統合型CAMは、畳み込みニューラルネットワーク(CNN)における機能の重要性の全体像を提供する。
Grad-CAMやGrad-CAM++のような従来の勾配ベースのCAMメソッドは、主に関心のある領域を強調するために最終層アクティベーションを使用する。
我々はGrad-CAM++からアルファ項を一般化し、どんなスムーズな関数にも適用し、CAMの適用範囲を広範囲に広げる。
論文 参考訳(メタデータ) (2024-12-02T10:33:34Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration [25.299607743268993]
クラスアクティベーションマップ(CAM)手法は、モデルの意思決定基準を明らかにする領域を強調するが、明確なサリエンシマップと詳細な解釈性は欠如している。
チャネル活性化マップから共有パターンを抽出する新しい分解分解分解法であるDecomCAMを提案する。
実験の結果,DecomCAMは精度を向上するだけでなく,解釈可能性と計算効率のバランスを最適化できることがわかった。
論文 参考訳(メタデータ) (2024-05-29T08:40:11Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Exploit CAM by itself: Complementary Learning System for Weakly
Supervised Semantic Segmentation [59.24824050194334]
本稿では,CLS(Complementary Learning System)というエージェント学習における興味深い作業機構について述べる。
このシンプルだが効果的な学習パターンを動機として,汎用学習機構(GSLM)を提案する。
汎用学習モジュール(GLM)と特定学習モジュール(SLM)を開発するGSLM
論文 参考訳(メタデータ) (2023-03-04T16:16:47Z) - VS-CAM: Vertex Semantic Class Activation Mapping to Interpret Vision
Graph Neural Network [10.365366151667017]
グラフ畳み込みニューラルネットワーク(GCN)は注目度を高め、様々なコンピュータビジョンタスクで優れたパフォーマンスを達成した。
標準畳み込みニューラルネットワーク(CNN)では、クラスアクティベーションマッピング(CAM)法が、ヒートマップを生成することで、CNNの決定と画像領域の間の接続を可視化するために一般的に使用される。
本稿では,特にGCN, Vertex Semantic Class Activation Mapping (VS-CAM)に適用可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T09:45:59Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Use HiResCAM instead of Grad-CAM for faithful explanations of
convolutional neural networks [89.56292219019163]
説明法は意味のある概念を学習し、素早い相関を悪用しないモデルの開発を容易にする。
一般的なニューラルネットワーク説明法であるGrad-CAMの、未認識の制限について説明する。
本稿では,モデルが各予測に使用する場所のみをハイライトするクラス固有の説明手法であるHiResCAMを提案する。
論文 参考訳(メタデータ) (2020-11-17T19:26:14Z) - Eigen-CAM: Class Activation Map using Principal Components [1.2691047660244335]
この論文は、解釈可能で堅牢で透明なモデルに対する需要の増加に対応するために、従来の考え方に基づいている。
提案したEigen-CAMは、畳み込み層から学習した特徴/表現の基本的なコンポーネントを計算し、視覚化する。
論文 参考訳(メタデータ) (2020-08-01T17:14:13Z) - SS-CAM: Smoothed Score-CAM for Sharper Visual Feature Localization [1.3381749415517021]
SS-CAMと呼ばれる視覚的シャープネスの観点から,視覚的説明が強化された。
In the ILSVRC 2012 Validation dataset, which are evaluations Score-CAM on both faithfulness and localization task。
論文 参考訳(メタデータ) (2020-06-25T08:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。