論文の概要: LICO: Explainable Models with Language-Image Consistency
- arxiv url: http://arxiv.org/abs/2310.09821v1
- Date: Sun, 15 Oct 2023 12:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 17:48:19.244016
- Title: LICO: Explainable Models with Language-Image Consistency
- Title(参考訳): licO: 言語イメージの一貫性を備えた説明可能なモデル
- Authors: Yiming Lei, Zilong Li, Yangyang Li, Junping Zhang, Hongming Shan
- Abstract要約: 本稿では,Language-Image Consistency model for explainable image classification, licOについて述べる。
まず、画像特徴量と言語特徴量との距離を最小化して、粗大な大域的多様体構造アライメントを確立する。
次に,局所特徴写像をクラス固有のプロンプトに割り当てるために最適な輸送(OT)理論を適用することにより,細粒度なサリエンシマップを実現する。
- 参考スコア(独自算出の注目度): 39.869639626266554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting the decisions of deep learning models has been actively studied
since the explosion of deep neural networks. One of the most convincing
interpretation approaches is salience-based visual interpretation, such as
Grad-CAM, where the generation of attention maps depends merely on categorical
labels. Although existing interpretation methods can provide explainable
decision clues, they often yield partial correspondence between image and
saliency maps due to the limited discriminative information from one-hot
labels. This paper develops a Language-Image COnsistency model for explainable
image classification, termed LICO, by correlating learnable linguistic prompts
with corresponding visual features in a coarse-to-fine manner. Specifically, we
first establish a coarse global manifold structure alignment by minimizing the
distance between the distributions of image and language features. We then
achieve fine-grained saliency maps by applying optimal transport (OT) theory to
assign local feature maps with class-specific prompts. Extensive experimental
results on eight benchmark datasets demonstrate that the proposed LICO achieves
a significant improvement in generating more explainable attention maps in
conjunction with existing interpretation methods such as Grad-CAM. Remarkably,
LICO improves the classification performance of existing models without
introducing any computational overhead during inference. Source code is made
available at https://github.com/ymLeiFDU/LICO.
- Abstract(参考訳): ディープニューラルネットワークの爆発以降、ディープラーニングモデルの決定を解釈する研究が活発に行われている。
最も説得力のある解釈手法の1つは、Grad-CAMのようなサリエンスに基づく視覚的解釈であり、注意マップの生成は分類ラベルにのみ依存する。
既存の解釈手法は説明可能な決定手がかりを提供することができるが、一方のホットラベルからの限定的な識別情報のために、画像とサルジェンシーマップの間に部分的対応を与えることが多い。
本稿では,学習可能な言語プロンプトと対応する視覚特徴を大まかに関連付けることで,説明可能な画像分類のための言語画像一貫性モデル「lico」を開発した。
具体的には,まず画像と言語の特徴の分布間の距離を最小化し,粗大大域多様体構造アライメントを確立する。
次に,局所特徴写像をクラス固有のプロンプトに割り当てるために最適な輸送(OT)理論を適用することにより,細粒度なサリエンシマップを実現する。
8つのベンチマークデータセットの大規模な実験結果から,提案したlicOはGrad-CAMなどの既存の解釈手法と合わせて,より説明可能な注意マップを生成する上で,大幅な改善を達成していることが示された。
注目すべきは、licOは推論中に計算オーバーヘッドを発生させることなく、既存のモデルの分類性能を改善することである。
ソースコードはhttps://github.com/ymleifdu/licoで入手できる。
関連論文リスト
- CLIP-Clique: Graph-based Correspondence Matching Augmented by Vision Language Models for Object-based Global Localization [0.0]
オブジェクトマップ上のローカライズのための最も有望なアプローチの1つは、セマンティックグラフマッチングを使用することである。
従来の問題に対処するために、視覚言語モデルを用いた対応マッチングを強化する。
さらに、inlierはグラフ理論のアプローチを用いて決定的に推定される。
論文 参考訳(メタデータ) (2024-10-04T00:23:20Z) - Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - Interpretable Network Visualizations: A Human-in-the-Loop Approach for Post-hoc Explainability of CNN-based Image Classification [5.087579454836169]
State-of-the-art explainability Method は、特定のクラスが特定された場所を示すために、サリエンシマップを生成する。
本稿では,畳み込みニューラルネットワークの機能抽出プロセス全体を説明するポストホック手法を提案する。
また,複数の画像にラベルを集約することで,グローバルな説明を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T09:21:35Z) - Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues [55.97779732051921]
オーキューを分類器学習に明示的に組み込むための新しい学習戦略が提案されている。
分類性能を劣化させることなく階層的解釈性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-01T02:13:49Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Feature Activation Map: Visual Explanation of Deep Learning Models for
Image Classification [17.373054348176932]
本研究では,機能活性化マップ (FAM) と呼ばれるポストホック解釈ツールを提案する。
FAMは、FC層を分類器として使用せずにディープラーニングモデルを解釈できる。
提案したFAMアルゴリズムの有効性を実証するために,10種類の深層学習モデルを用いて,少数ショット画像分類,コントラスト学習画像分類,画像検索タスクを行った。
論文 参考訳(メタデータ) (2023-07-11T05:33:46Z) - Decom--CAM: Tell Me What You See, In Details! Feature-Level Interpretation via Decomposition Class Activation Map [23.71680014689873]
クラスアクティベーションマップ(CAM)は、オブジェクトの位置をハイライトすることで深層モデルの予測を解釈するために広く使われている。
本稿では,分解クラス活性化マップ(Decom-CAM)と呼ばれる2段階の解釈可能性を提案する。
実験の結果,提案したDecom-CAMは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T14:33:01Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。