Fugu-MT 論文翻訳(概要): CNN Explainability with Multivector Tucker Saliency Maps for Self-Supervised Models

論文の概要: CNN Explainability with Multivector Tucker Saliency Maps for Self-Supervised Models

arxiv url: http://arxiv.org/abs/2410.23072v1
Date: Wed, 30 Oct 2024 14:46:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.356224
Title: CNN Explainability with Multivector Tucker Saliency Maps for Self-Supervised Models
Title（参考訳）: 自己監督型モデルのためのマルチベクトルタッカー・サリエンシマップによるCNN説明可能性
Authors: Aymene Mohammed Bouayed, Samuel Deslauriers-Gauthier, Adrian Iaccovelli, David Naccache,
Abstract要約: 本論文では,タッカーテンソル分解を応用して特徴写像の固有構造をよりよく把握するタッカー・サリエンシ・マップ(TSM)法を提案する。これらは高忠実度マップを生成するために使用され、入力に対する関心の対象を効果的に強調する。我々はEigenCAMとTSMを、すべての特異ベクトルと値を利用するマルチベクトル変種であるMultivec-EigenCAMとMultivector Tucker Saliency Maps(MTSM)に拡張する。
参考スコア（独自算出の注目度）: 1.2499537119440245
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Interpreting the decisions of Convolutional Neural Networks (CNNs) is essential for understanding their behavior, yet explainability remains a significant challenge, particularly for self-supervised models. Most existing methods for generating saliency maps rely on ground truth labels, restricting their use to supervised tasks. EigenCAM is the only notable label-independent alternative, leveraging Singular Value Decomposition to generate saliency maps applicable across CNN models, but it does not fully exploit the tensorial structure of feature maps. In this work, we introduce the Tucker Saliency Map (TSM) method, which applies Tucker tensor decomposition to better capture the inherent structure of feature maps, producing more accurate singular vectors and values. These are used to generate high-fidelity saliency maps, effectively highlighting objects of interest in the input. We further extend EigenCAM and TSM into multivector variants -Multivec-EigenCAM and Multivector Tucker Saliency Maps (MTSM)- which utilize all singular vectors and values, further improving saliency map quality. Quantitative evaluations on supervised classification models demonstrate that TSM, Multivec-EigenCAM, and MTSM achieve competitive performance with label-dependent methods. Moreover, TSM enhances explainability by approximately 50% over EigenCAM for both supervised and self-supervised models. Multivec-EigenCAM and MTSM further advance state-of-the-art explainability performance on self-supervised models, with MTSM achieving the best results.
Abstract（参考訳）: 畳み込みニューラルネットワーク(CNN)の決定を解釈することは、その振る舞いを理解する上で不可欠である。既存のサリエンシマップを生成する方法の多くは、接地真理ラベルに依存しており、教師付きタスクに制限されている。 EigenCAMは、Singular Value Decomposition(Singular Value Decomposition)を利用してCNNモデルに適用可能なサリエンシマップを生成するが、特徴写像のテンソル構造を完全に活用していない。本研究では、タッカーテンソル分解を適用して特徴写像の固有構造をより正確に把握し、より正確な特異ベクトルと値を生成するタッカー・サリエンシ・マップ(TSM)法を提案する。これらは高忠実度マップを生成するために使用され、入力に対する関心の対象を効果的に強調する。さらに、EigenCAMとTSMをマルチベクター変種(Multivec-EigenCAMとMultivector Tucker Saliency Maps (MTSM))に拡張し、全ての特異ベクトルと値を利用する。教師付き分類モデルの定量的評価により,TSM,Multivec-EigenCAM,MTSMがラベル依存手法と競合する性能を示した。さらに、TSMは、教師付きモデルと自己教師型モデルの両方において、EigenCAMを約50%上回る説明性を向上させる。 Multivec-EigenCAM と MTSM は、自己教師付きモデル上での最先端の説明可能性性能をさらに向上させ、MTSM は最高の結果を得た。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文参考訳（メタデータ） (2024-10-18T11:49:40Z)
PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。 CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文参考訳（メタデータ） (2024-09-08T15:02:25Z)
DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration [25.299607743268993]
クラスアクティベーションマップ(CAM)手法は、モデルの意思決定基準を明らかにする領域を強調するが、明確なサリエンシマップと詳細な解釈性は欠如している。チャネル活性化マップから共有パターンを抽出する新しい分解分解分解法であるDecomCAMを提案する。実験の結果,DecomCAMは精度を向上するだけでなく,解釈可能性と計算効率のバランスを最適化できることがわかった。
論文参考訳（メタデータ） (2024-05-29T08:40:11Z)
Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion [18.138433117711177]
本稿では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー(MMHT)を提案する。 MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚モードから支配的な特徴を抽出する。 MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。
論文参考訳（メタデータ） (2024-05-28T07:24:56Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
Multilinear Operator Networks [60.7432588386185]
ポリノミアルネットワーク(Polynomial Networks)は、アクティベーション関数を必要としないモデルのクラスである。マルチリニア演算子のみに依存するMONetを提案する。
論文参考訳（メタデータ） (2024-01-31T16:52:19Z)
BroadCAM: Outcome-agnostic Class Activation Mapping for Small-scale Weakly Supervised Applications [69.22739434619531]
そこで我々はBroadCAMと呼ばれる結果に依存しないCAMアプローチを提案する。 VOC2012でBroadCAM、WSSSでBCSS-WSSS、WSOLでOpenImages30kを評価することで、BroadCAMは優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-09-07T06:45:43Z)
Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。 SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文参考訳（メタデータ） (2023-06-19T23:10:02Z)
IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling [3.867363075280544]
マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-01-06T10:08:11Z)
OST: Efficient One-stream Network for 3D Single Object Tracking in Point Clouds [6.661881950861012]
本稿では,従来のシームズネットワークで発生した相関操作を回避するために,インスタンスレベルのエンコーディングの強みを活かした新しい一ストリームネットワークを提案する。提案手法は,クラス固有のトラッキングだけでなく,より少ない計算と高い効率でクラスに依存しないトラッキングを実現する。
論文参考訳（メタデータ） (2022-10-16T12:31:59Z)
Eigen-CAM: Class Activation Map using Principal Components [1.2691047660244335]
この論文は、解釈可能で堅牢で透明なモデルに対する需要の増加に対応するために、従来の考え方に基づいている。提案したEigen-CAMは、畳み込み層から学習した特徴/表現の基本的なコンポーネントを計算し、視覚化する。
論文参考訳（メタデータ） (2020-08-01T17:14:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。