論文の概要: COMIX: Compositional Explanations using Prototypes
- arxiv url: http://arxiv.org/abs/2501.06059v1
- Date: Fri, 10 Jan 2025 15:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:26:49.412432
- Title: COMIX: Compositional Explanations using Prototypes
- Title(参考訳): COMIX: プロトタイプを用いた構成記述
- Authors: Sarath Sivaprasad, Dmitry Kangin, Plamen Angelov, Mario Fritz,
- Abstract要約: 本稿では,機械表現を人間の理解と整合させる手法を提案する。
提案手法はCOMIXと呼ばれ,学習概念に基づいて領域に分解することで画像の分類を行う。
提案手法は説明の完全性を提供し,その効率性は他の本質的に解釈可能なアーキテクチャと競合することを示す。
- 参考スコア(独自算出の注目度): 46.15031477955461
- License:
- Abstract: Aligning machine representations with human understanding is key to improving interpretability of machine learning (ML) models. When classifying a new image, humans often explain their decisions by decomposing the image into concepts and pointing to corresponding regions in familiar images. Current ML explanation techniques typically either trace decision-making processes to reference prototypes, generate attribution maps highlighting feature importance, or incorporate intermediate bottlenecks designed to align with human-interpretable concepts. The proposed method, named COMIX, classifies an image by decomposing it into regions based on learned concepts and tracing each region to corresponding ones in images from the training dataset, assuring that explanations fully represent the actual decision-making process. We dissect the test image into selected internal representations of a neural network to derive prototypical parts (primitives) and match them with the corresponding primitives derived from the training data. In a series of qualitative and quantitative experiments, we theoretically prove and demonstrate that our method, in contrast to post hoc analysis, provides fidelity of explanations and shows that the efficiency is competitive with other inherently interpretable architectures. Notably, it shows substantial improvements in fidelity and sparsity metrics, including 48.82% improvement in the C-insertion score on the ImageNet dataset over the best state-of-the-art baseline.
- Abstract(参考訳): 機械学習(ML)モデルの解釈可能性を改善するためには、人間の理解による機械表現の調整が重要である。
新しいイメージを分類する際、人間はイメージを概念に分解し、慣れ親しんだイメージで対応する領域を指し示すことで、意思決定を説明することが多い。
現在のMLの説明手法は、典型的には、プロトタイプを参照するための意思決定プロセスのトレース、特徴の重要性を強調する属性マップの生成、あるいは人間の解釈可能な概念と整合するように設計された中間ボトルネックの統合のいずれかである。
提案手法はCOMIXと呼ばれ,学習概念に基づいて領域に分解し,各領域をトレーニングデータセットから対応する領域にトレースすることにより,説明が実際の意思決定プロセスを完全に表現することを保証する。
実験画像をニューラルネットワークの選択した内部表現に分解し、原型部分(プリミティブ)を導出し、トレーニングデータから派生した対応するプリミティブとマッチングする。
定性的かつ定量的な一連の実験において、我々の手法はポストホック解析とは対照的に、説明の忠実さを提供し、その効率が他の本質的に解釈可能なアーキテクチャと競合していることを示し、理論的に証明し、実証する。
特に、ImageNetデータセットのC-Insertionスコアが48.82%改善され、最先端のベースラインよりも大幅に改善されている。
関連論文リスト
- Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Interpretable Network Visualizations: A Human-in-the-Loop Approach for Post-hoc Explainability of CNN-based Image Classification [5.087579454836169]
State-of-the-art explainability Method は、特定のクラスが特定された場所を示すために、サリエンシマップを生成する。
本稿では,畳み込みニューラルネットワークの機能抽出プロセス全体を説明するポストホック手法を提案する。
また,複数の画像にラベルを集約することで,グローバルな説明を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T09:21:35Z) - DP-Net: Learning Discriminative Parts for image recognition [4.480595534587716]
DP-Netは強力な解釈能力を持つディープアーキテクチャである。
プリトレーニングされた畳み込みニューラルネットワーク(CNN)とパートベースの認識モジュールを併用する。
論文 参考訳(メタデータ) (2024-04-23T13:42:12Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - ECLAD: Extracting Concepts with Local Aggregated Descriptors [6.470466745237234]
そこで本研究では,CNNアクティベーションマップの画素ワイドアグリゲーションから得られた表現に基づいて,概念の自動抽出とローカライズを行う手法を提案する。
本稿では,主成分の画素単位のアノテーションを用いた合成データセットに基づく概念抽出手法の検証手法を提案する。
論文 参考訳(メタデータ) (2022-06-09T14:25:23Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Explaining Convolutional Neural Networks through Attribution-Based Input
Sampling and Block-Wise Feature Aggregation [22.688772441351308]
クラスアクティベーションマッピングとランダムな入力サンプリングに基づく手法が広く普及している。
しかし、帰属法は、その説明力を制限した解像度とぼやけた説明地図を提供する。
本研究では、帰属型入力サンプリング技術に基づいて、モデルの複数の層から可視化マップを収集する。
また,CNNモデル全体に適用可能な層選択戦略を提案する。
論文 参考訳(メタデータ) (2020-10-01T20:27:30Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。