論文の概要: Explaining in Diffusion: Explaining a Classifier Through Hierarchical Semantics with Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.18604v1
- Date: Tue, 24 Dec 2024 18:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:48.991644
- Title: Explaining in Diffusion: Explaining a Classifier Through Hierarchical Semantics with Text-to-Image Diffusion Models
- Title(参考訳): 拡散における説明:テキスト・画像拡散モデルを用いた階層的意味論による分類器の記述
- Authors: Tahira Kazimi, Ritika Allada, Pinar Yanardag,
- Abstract要約: DiffExは、テキストから画像への拡散モデルの能力を活用して分類器の決定を説明する新しい手法である。
我々の実験は、DiffExがGANと比べ、はるかに広い範囲のセマンティクスをカバーできることを示した。
- 参考スコア(独自算出の注目度): 3.3454373538792552
- License:
- Abstract: Classifiers are important components in many computer vision tasks, serving as the foundational backbone of a wide variety of models employed across diverse applications. However, understanding the decision-making process of classifiers remains a significant challenge. We propose DiffEx, a novel method that leverages the capabilities of text-to-image diffusion models to explain classifier decisions. Unlike traditional GAN-based explainability models, which are limited to simple, single-concept analyses and typically require training a new model for each classifier, our approach can explain classifiers that focus on single concepts (such as faces or animals) as well as those that handle complex scenes involving multiple concepts. DiffEx employs vision-language models to create a hierarchical list of semantics, allowing users to identify not only the overarching semantic influences on classifiers (e.g., the 'beard' semantic in a facial classifier) but also their sub-types, such as 'goatee' or 'Balbo' beard. Our experiments demonstrate that DiffEx is able to cover a significantly broader spectrum of semantics compared to its GAN counterparts, providing a hierarchical tool that delivers a more detailed and fine-grained understanding of classifier decisions.
- Abstract(参考訳): 分類器は多くのコンピュータビジョンタスクにおいて重要な要素であり、多様なアプリケーションにまたがる様々なモデルの基本的なバックボーンとして機能する。
しかし、分類者の意思決定過程を理解することは依然として重要な課題である。
DiffExは,テキストから画像への拡散モデルの能力を活用して分類器の決定を説明する新しい手法である。
従来のGANベースの説明可能性モデルとは違い、単純な単一概念分析に限られており、各分類器に新しいモデルを訓練する必要があるため、本手法では、複数の概念を含む複雑なシーンを扱うだけでなく、単一の概念(顔や動物など)に焦点を当てた分類器を説明することができる。
DiffExは、視覚言語モデルを使用して、階層的なセマンティクスのリストを作成し、ユーザーが分類器(例えば、顔分類器の「ビード」セマンティクス)に支配的なセマンティクスの影響を識別するだけでなく、「ゴーテ」や「バルボ」などのサブタイプも特定できる。
我々の実験は、DiffExがGANと比較してはるかに広範囲のセマンティクスをカバーできることを示し、より詳細できめ細かな分類決定の理解を提供する階層的なツールを提供する。
関連論文リスト
- Accurate Explanation Model for Image Classifiers using Class Association Embedding [5.378105759529487]
本稿では,グローバルな知識とローカルな知識の利点を組み合わせた生成的説明モデルを提案する。
クラスアソシエーション埋め込み(CAE)は、各サンプルを1組のクラス関連コードと個別コードにエンコードする。
クラス関連特徴を個々の特徴から効率的に分離するビルディングブロック・コヒーレンシー特徴抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-12T07:41:00Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。
本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。
注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - ELUDE: Generating interpretable explanations via a decomposition into
labelled and unlabelled features [23.384134043048807]
モデルの予測を2つの部分に分解する説明フレームワークを開発する。
後者を識別することで、モデルの"説明できない"部分を分析することができます。
また,同機能領域で訓練された複数のモデルに対して,非競合機能セットが一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T17:36:55Z) - Prototype Based Classification from Hierarchy to Fairness [7.129830575525267]
新しいニューラルネットワークアーキテクチャである概念サブスペースネットワーク(CSN)は、既存の特殊分類器を一般化して統一モデルを生成する。
CSNは、概念独立を強制する際、最先端の結果を公平に分類する。
CSNは、解釈可能性を促進する既存のプロトタイプベースの分類器にインスパイアされている。
論文 参考訳(メタデータ) (2022-05-27T14:21:41Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。