Fugu-MT 論文翻訳(概要): Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

論文の概要: Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

arxiv url: http://arxiv.org/abs/2603.05386v1
Date: Thu, 05 Mar 2026 17:16:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.335402
Title: Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations
Title（参考訳）: Fusion-CAM:ロバストな視覚説明のためのグラディエントとリージョンベースのクラスアクティベーションマップの統合
Authors: Hajar Dekdegue, Moncef Garouani, Josiane Mothe, Jordan Bernigaud,
Abstract要約: モデル予測に影響を与える入力領域を可視化するために,クラス活性化マップ(CAM)法が広く採用されている。グラディエントベースのアプローチ(Grad-CAMなど)は、クラスアクティベーションの計算によって高度に識別され、きめ細かな詳細を提供する。地域ベースのアプローチ(例えば、Score-CAM)は、広範囲にわたる情報を集約し、オーバースムーシングのコストで広範囲のオブジェクトカバレッジをキャプチャする。我々は、この説明的ギャップを橋渡しする新しいフレームワークであるFusion-CAMを紹介します。
参考スコア（独自算出の注目度）: 2.537406035246369
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interpreting the decision-making process of deep convolutional neural networks remains a central challenge in achieving trustworthy and transparent artificial intelligence. Explainable AI (XAI) techniques, particularly Class Activation Map (CAM) methods, are widely adopted to visualize the input regions influencing model predictions. Gradient-based approaches (e.g. Grad-CAM) provide highly discriminative, fine-grained details by computing gradients of class activations but often yield noisy and incomplete maps that emphasize only the most salient regions rather than the complete objects. Region-based approaches (e.g. Score-CAM) aggregate information over larger areas, capturing broader object coverage at the cost of over-smoothing and reduced sensitivity to subtle features. We introduce Fusion-CAM, a novel framework that bridges this explanatory gap by unifying both paradigms through a dedicated fusion mechanism to produce robust and highly discriminative visual explanations. Our method first denoises gradient-based maps, yielding cleaner and more focused activations. It then combines the refined gradient map with region-based maps using contribution weights to enhance class coverage. Finally, we propose an adaptive similarity-based pixel-level fusion that evaluates the agreement between both paradigms and dynamically adjusts the fusion strength. This adaptive mechanism reinforces consistent activations while softly blending conflicting regions, resulting in richer, context-aware, and input-adaptive visual explanations. Extensive experiments on standard benchmarks show that Fusion-CAM consistently outperforms existing CAM variants in both qualitative visualization and quantitative evaluation, providing a robust and flexible tool for interpreting deep neural networks.
Abstract（参考訳）: 深層畳み込みニューラルネットワークの決定過程を解釈することは、信頼できる透明な人工知能を達成する上で、依然として中心的な課題である。モデル予測に影響を与える入力領域を可視化するために、説明可能なAI(XAI)技術、特にクラス活性化マップ(CAM)手法が広く採用されている。勾配に基づくアプローチ(例えば Grad-CAM)は、クラスアクティベーションの勾配を計算することによって、高度に識別され、きめ細かな詳細を提供するが、しばしば、完全対象よりも最も健全な領域のみを強調するノイズや不完全写像をもたらす。地域ベースのアプローチ(例えばScore-CAM)は、広範囲にわたる情報を集約し、過度なスムース化と微妙な特徴に対する感度の低下を犠牲にして、広範囲のオブジェクトカバレッジをキャプチャする。我々は,この説明的ギャップを橋渡しする新しいフレームワークであるFusion-CAMを紹介した。提案手法はまず勾配マップを分解し,よりクリーンでより集中的な活性化を実現する。次に、改良された勾配写像と、クラスカバレッジを高めるためにコントリビューションウェイトを用いた地域ベースの地図を組み合わせる。最後に、両パラダイム間の一致を評価し、融合強度を動的に調整する適応的類似度に基づく画素レベルの融合を提案する。この適応的なメカニズムは、矛盾する領域をソフトにブレンドしながら一貫した活性化を強化し、その結果、よりリッチでコンテキスト認識、入力適応的な視覚的説明をもたらす。標準ベンチマークに関する大規模な実験によると、Fusion-CAMは定性的な可視化と定量的評価の両方で既存のCAM亜種を一貫して上回り、ディープニューラルネットワークを解釈するための堅牢で柔軟なツールを提供する。

関連論文リスト

GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-14T11:31:43Z)
Integrative CAM: Adaptive Layer Fusion for Comprehensive Interpretation of CNNs [2.58561853556421]
統合型CAMは、畳み込みニューラルネットワーク(CNN)における機能の重要性の全体像を提供する。 Grad-CAMやGrad-CAM++のような従来の勾配ベースのCAMメソッドは、主に関心のある領域を強調するために最終層アクティベーションを使用する。我々はGrad-CAM++からアルファ項を一般化し、どんなスムーズな関数にも適用し、CAMの適用範囲を広範囲に広げる。
論文参考訳（メタデータ） (2024-12-02T10:33:34Z)
DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration [25.299607743268993]
クラスアクティベーションマップ(CAM)手法は、モデルの意思決定基準を明らかにする領域を強調するが、明確なサリエンシマップと詳細な解釈性は欠如している。チャネル活性化マップから共有パターンを抽出する新しい分解分解分解法であるDecomCAMを提案する。実験の結果,DecomCAMは精度を向上するだけでなく,解釈可能性と計算効率のバランスを最適化できることがわかった。
論文参考訳（メタデータ） (2024-05-29T08:40:11Z)
Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。 AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。 AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-12T11:48:49Z)
ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2023-10-31T06:11:23Z)
TOPIQ: A Top-down Approach from Semantics to Distortions for Image Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文参考訳（メタデータ） (2023-08-06T09:08:37Z)
Decom--CAM: Tell Me What You See, In Details! Feature-Level Interpretation via Decomposition Class Activation Map [23.71680014689873]
クラスアクティベーションマップ(CAM)は、オブジェクトの位置をハイライトすることで深層モデルの予測を解釈するために広く使われている。本稿では,分解クラス活性化マップ(Decom-CAM)と呼ばれる2段階の解釈可能性を提案する。実験の結果,提案したDecom-CAMは最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-05-27T14:33:01Z)
Shap-CAM: Visual Explanations for Convolutional Neural Networks based on Shapley Value [86.69600830581912]
クラスアクティベーションマッピングに基づくShap-CAMと呼ばれる新しい視覚的説明法を開発した。我々は,Shap-CAMが意思決定プロセスの解釈において,より良い視覚的性能と公平性を実現することを実証した。
論文参考訳（メタデータ） (2022-08-07T00:59:23Z)
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文参考訳（メタデータ） (2022-01-24T17:48:04Z)
Eigen-CAM: Class Activation Map using Principal Components [1.2691047660244335]
この論文は、解釈可能で堅牢で透明なモデルに対する需要の増加に対応するために、従来の考え方に基づいている。提案したEigen-CAMは、畳み込み層から学習した特徴/表現の基本的なコンポーネントを計算し、視覚化する。
論文参考訳（メタデータ） (2020-08-01T17:14:13Z)
Global Context-Aware Progressive Aggregation Network for Salient Object Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-03-02T04:26:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。