論文の概要: Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization
- arxiv url: http://arxiv.org/abs/2507.10846v1
- Date: Mon, 14 Jul 2025 22:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.909779
- Title: Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization
- Title(参考訳): Winsor-CAM:レイヤワイズ・ウィンソライゼーションによるディープネットワークからのヒューマンチューニング可能なビジュアル説明
- Authors: Casey Wall, Longwei Wang, Rodrigue Rizk, KC Santosh,
- Abstract要約: We propose Winsor-CAM, a novel, human-tunable extension of Grad-CAM that generate robust and coherent saliency map。
Winsor-CAMは、ノイズや極端な帰属値の影響を軽減するために、パーセンタイルベースのアウトリア減衰技術であるWinsorizationを適用している。
我々は、Winsor-CAMがより解釈可能なヒートマップを生成し、ローカライズメトリクスにおいて優れた性能を実現することを示す。
- 参考スコア(独自算出の注目度): 3.2338088176151825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting the decision-making process of Convolutional Neural Networks (CNNs) is critical for deploying models in high-stakes domains. Gradient-weighted Class Activation Mapping (Grad-CAM) is a widely used method for visual explanations, yet it typically focuses on the final convolutional layer or na\"ively averages across layers, strategies that can obscure important semantic cues or amplify irrelevant noise. We propose Winsor-CAM, a novel, human-tunable extension of Grad-CAM that generates robust and coherent saliency maps by aggregating information across all convolutional layers. To mitigate the influence of noisy or extreme attribution values, Winsor-CAM applies Winsorization, a percentile-based outlier attenuation technique. A user-controllable threshold allows for semantic-level tuning, enabling flexible exploration of model behavior across representational hierarchies. Evaluations on standard architectures (ResNet50, DenseNet121, VGG16, InceptionV3) using the PASCAL VOC 2012 dataset demonstrate that Winsor-CAM produces more interpretable heatmaps and achieves superior performance in localization metrics, including intersection-over-union and center-of-mass alignment, when compared to Grad-CAM and uniform layer-averaging baselines. Winsor-CAM advances the goal of trustworthy AI by offering interpretable, multi-layer insights with human-in-the-loop control.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)の意思決定プロセスの解釈は、高い領域にモデルをデプロイするために重要である。
グラディエント重み付きクラスアクティベーションマッピング(Grad-CAM)は視覚的説明のための広く使われている手法であるが、一般的には最終畳み込み層(na\)をレイヤー全体で平均化し、重要なセマンティックキューを曖昧にしたり、無関係なノイズを増幅する戦略に焦点を当てている。
我々は、すべての畳み込み層に情報を集約することで、堅牢で一貫性のあるサリエンシマップを生成する、新しい人為的なGrad-CAMの拡張であるWinsor-CAMを提案する。
Winsor-CAMは、ノイズや極端な帰属値の影響を軽減するために、パーセンタイルベースのアウトリア減衰技術であるWinsorizationを適用している。
ユーザ制御可能なしきい値により,セマンティックレベルのチューニングが可能になり,表現階層を越えたモデル動作の柔軟な探索が可能になる。
PASCAL VOC 2012データセットを用いた標準アーキテクチャ (ResNet50, DenseNet121, VGG16, InceptionV3) の評価は、Winsor-CAMがより解釈可能なヒートマップを生成し、Grad-CAMや均一層通過ベースラインと比較した場合の交叉結合や中心軸アライメントといったローカライズメトリクスにおいて優れた性能を発揮することを示した。
Winsor-CAMは、ヒューマン・イン・ザ・ループ制御による解釈可能な多層的な洞察を提供することによって、信頼できるAIの目標を前進させる。
関連論文リスト
- Integrative CAM: Adaptive Layer Fusion for Comprehensive Interpretation of CNNs [2.58561853556421]
統合型CAMは、畳み込みニューラルネットワーク(CNN)における機能の重要性の全体像を提供する。
Grad-CAMやGrad-CAM++のような従来の勾配ベースのCAMメソッドは、主に関心のある領域を強調するために最終層アクティベーションを使用する。
我々はGrad-CAM++からアルファ項を一般化し、どんなスムーズな関数にも適用し、CAMの適用範囲を広範囲に広げる。
論文 参考訳(メタデータ) (2024-12-02T10:33:34Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Recipro-CAM: Gradient-free reciprocal class activation map [0.0]
本稿では,アクティベーションマップとネットワーク出力の相関性を利用するために,軽量なアーキテクチャと勾配のないReciprocal CAM(Recipro-CAM)を提案する。
提案手法により,Score-CAMと比較してResNetファミリーの1:78~3:72%のゲインを得た。
さらに、Recipro-CAMはGrad-CAMと似たサリエンシマップ生成率を示し、Score-CAMの約148倍高速である。
論文 参考訳(メタデータ) (2022-09-28T13:15:03Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Eigen-CAM: Class Activation Map using Principal Components [1.2691047660244335]
この論文は、解釈可能で堅牢で透明なモデルに対する需要の増加に対応するために、従来の考え方に基づいている。
提案したEigen-CAMは、畳み込み層から学習した特徴/表現の基本的なコンポーネントを計算し、視覚化する。
論文 参考訳(メタデータ) (2020-08-01T17:14:13Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。