論文の概要: How to Squeeze An Explanation Out of Your Model
- arxiv url: http://arxiv.org/abs/2412.05134v1
- Date: Fri, 06 Dec 2024 15:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:08.486947
- Title: How to Squeeze An Explanation Out of Your Model
- Title(参考訳): モデルから説明を抽出する方法
- Authors: Tiago Roxo, Joana C. Costa, Pedro R. M. Inácio, Hugo Proença,
- Abstract要約: 本稿では,モデルに依存しない解釈可能性のアプローチを提案する。
任意のモデルの分類レイヤーの前にSEブロックを含めることで、最も影響力のある特徴を検索することができる。
以上の結果から,新たなSEベースの解釈性は,画像およびビデオ/マルチモーダル設定の様々なモデルに適用可能であることがわかった。
- 参考スコア(独自算出の注目度): 13.154512864498912
- License:
- Abstract: Deep learning models are widely used nowadays for their reliability in performing various tasks. However, they do not typically provide the reasoning behind their decision, which is a significant drawback, particularly for more sensitive areas such as biometrics, security and healthcare. The most commonly used approaches to provide interpretability create visual attention heatmaps of regions of interest on an image based on models gradient backpropagation. Although this is a viable approach, current methods are targeted toward image settings and default/standard deep learning models, meaning that they require significant adaptations to work on video/multi-modal settings and custom architectures. This paper proposes an approach for interpretability that is model-agnostic, based on a novel use of the Squeeze and Excitation (SE) block that creates visual attention heatmaps. By including an SE block prior to the classification layer of any model, we are able to retrieve the most influential features via SE vector manipulation, one of the key components of the SE block. Our results show that this new SE-based interpretability can be applied to various models in image and video/multi-modal settings, namely biometrics of facial features with CelebA and behavioral biometrics using Active Speaker Detection datasets. Furthermore, our proposal does not compromise model performance toward the original task, and has competitive results with current interpretability approaches in state-of-the-art object datasets, highlighting its robustness to perform in varying data aside from the biometric context.
- Abstract(参考訳): ディープラーニングモデルは、様々なタスクの実行における信頼性のために、今日では広く使われている。
しかし、これは特にバイオメトリックス、セキュリティ、医療といったより敏感な分野において、大きな欠点である。
解釈可能性を提供する最も一般的なアプローチは、モデル勾配のバックプロパゲーションに基づく画像上の関心領域の視覚的注意ヒートマップを作成する。
これは実行可能なアプローチだが、現在の手法は画像設定とデフォルト/標準ディープラーニングモデルをターゲットにしている。
本稿では,視覚的注意熱マップを生成するSqueeze and Excitation(SE)ブロックの新たな利用法に基づく,モデルに依存しない解釈可能性のアプローチを提案する。
任意のモデルの分類層の前にSEブロックを含めることで、SEブロックのキーコンポーネントであるSEベクトル操作を通じて最も影響力のある特徴を検索することができる。
以上の結果から,このSEに基づく新たな解釈性は,CelebAを用いた顔特徴のバイオメトリックスや,Active Speaker Detectionデータセットを用いた行動バイオメトリックスといった,画像・ビデオ・マルチモーダル設定の様々なモデルに適用できることが示唆された。
さらに,本提案では,従来の課題に対するモデル性能を損なわず,現状のオブジェクトデータセットにおける現在の解釈可能性アプローチと競合する結果を得た。
関連論文リスト
- Free Lunch in Pathology Foundation Model: Task-specific Model Adaptation with Concept-Guided Feature Enhancement [18.839406725114042]
概念アンカー誘導型タスク固有特徴強調(CATE)を提案する。
CATEは、特定の下流タスクに対する病理基盤モデルの表現性と識別性を高めることができる。
パブリックなWSIデータセットの実験は、CATEがMILモデルの性能と一般化性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-11-15T02:38:00Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - The Importance of Downstream Networks in Digital Pathology Foundation Models [1.689369173057502]
162のアグリゲーションモデル構成を持つ3つの異なるデータセットにまたがる7つの特徴抽出モデルを評価する。
多くの特徴抽出器モデルの性能は顕著に類似していることが判明した。
論文 参考訳(メタデータ) (2023-11-29T16:54:25Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Probabilistic Tracking with Deep Factors [8.030212474745879]
因子グラフに基づく確率的追跡フレームワークにおける特徴量に対する生成密度と組み合わせたディープ・フィーチャー・エンコーディングの使い方を示す。
本稿では,学習した特徴エンコーダと生成密度を組み合わせる可能性モデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T21:31:51Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。