論文の概要: Caption-Driven Explainability: Probing CNNs for Bias via CLIP
- arxiv url: http://arxiv.org/abs/2510.22035v4
- Date: Thu, 06 Nov 2025 02:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.151138
- Title: Caption-Driven Explainability: Probing CNNs for Bias via CLIP
- Title(参考訳): キャプション駆動型説明可能性:CLIP経由のバイアスのためのCNNの提案
- Authors: Patrick Koller, Amil V. Dravid, Guido M. Schuster, Aggelos K. Katsaggelos,
- Abstract要約: ロバストネスは、機械学習(ML)において最も重要な問題の一つになっている。
コンピュータビジョン問題に対する最先端のXAI手法の1つは、サリエンシマップを生成することである。
コントラッシブ言語イメージ事前学習モデルに説明可能なスタンドアロンモデルを統合するキャプションベースのXAI手法を提案する。
- 参考スコア(独自算出の注目度): 8.587087233323038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robustness has become one of the most critical problems in machine learning (ML). The science of interpreting ML models to understand their behavior and improve their robustness is referred to as explainable artificial intelligence (XAI). One of the state-of-the-art XAI methods for computer vision problems is to generate saliency maps. A saliency map highlights the pixel space of an image that excites the ML model the most. However, this property could be misleading if spurious and salient features are present in overlapping pixel spaces. In this paper, we propose a caption-based XAI method, which integrates a standalone model to be explained into the contrastive language-image pre-training (CLIP) model using a novel network surgery approach. The resulting caption-based XAI model identifies the dominant concept that contributes the most to the models prediction. This explanation minimizes the risk of the standalone model falling for a covariate shift and contributes significantly towards developing robust ML models. Our code is available at https://github.com/patch0816/caption-driven-xai
- Abstract(参考訳): ロバストネスは、機械学習(ML)において最も重大な問題の一つになっている。
MLモデルを解釈し、その振る舞いを理解し、堅牢性を改善する科学は、説明可能な人工知能(XAI)と呼ばれる。
コンピュータビジョン問題に対する最先端のXAI手法の1つは、サリエンシマップを生成することである。
サリエンシマップは、MLモデルに最も興奮する画像のピクセル空間をハイライトする。
しかし、この性質は、重なり合う画素空間に刺激的かつ健全な特徴が存在する場合、誤解を招く可能性がある。
本稿では,新たなネットワーク手術アプローチを用いた言語画像事前学習(CLIP)モデルにスタンドアロンモデルを統合するキャプションベースのXAI手法を提案する。
結果として得られたキャプションベースのXAIモデルは、モデル予測に最も寄与する支配的な概念を識別する。
この説明は、共変量シフトのためにスタンドアローンモデルが落下するリスクを最小限に抑え、堅牢なMLモデルの開発に大きく貢献する。
私たちのコードはhttps://github.com/patch0816/caption-driven-xaiで利用可能です。
関連論文リスト
- ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - Fill in the blanks: Rethinking Interpretability in vision [0.0]
我々は、新しい視点から視覚モデルの説明可能性を再考し、トレーニング中にモデルが学習した一般的な入力構造を探索する。
標準的なビジョンデータセットと事前トレーニングされたモデルの実験は、一貫性のあるパターンを明らかにし、追加のモデルに依存しない説明可能性ツールとして解釈できる。
論文 参考訳(メタデータ) (2024-11-15T15:31:06Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [49.80911683739506]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Distilling BlackBox to Interpretable models for Efficient Transfer
Learning [19.40897632956169]
一般化可能なAIモデルの構築は、医療分野における大きな課題のひとつだ。
あるドメインから別のドメインに知識を転送するモデルを微調整するには、ターゲットドメイン内の大量のラベル付きデータが必要である。
本研究では,最小の計算コストで効率よく未確認対象領域に微調整できる解釈可能なモデルを開発する。
論文 参考訳(メタデータ) (2023-05-26T23:23:48Z) - Optimizing Explanations by Network Canonization and Hyperparameter
Search [74.76732413972005]
ルールベースで修正されたバックプロパゲーションXAIアプローチは、モダンなモデルアーキテクチャに適用される場合、しばしば課題に直面します。
モデルカノン化は、基礎となる機能を変更することなく問題のあるコンポーネントを無視してモデルを再構成するプロセスである。
本研究では、一般的なディープニューラルネットワークアーキテクチャに適用可能な、現在関連するモデルブロックのカノン化を提案する。
論文 参考訳(メタデータ) (2022-11-30T17:17:55Z) - Greybox XAI: a Neural-Symbolic learning framework to produce
interpretable predictions for image classification [6.940242990198]
Greybox XAIは、シンボリック知識ベース(KB)を使うことで、DNNと透明モデルを構成するフレームワークである。
我々は、XAIの普遍的基準が欠如している問題に、説明が何であるかを形式化することで対処する。
この新しいアーキテクチャがどのように正確で、いくつかのデータセットで説明可能であるかを示す。
論文 参考訳(メタデータ) (2022-09-26T08:55:31Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - Utilizing XAI technique to improve autoencoder based model for computer
network anomaly detection with shapley additive explanation(SHAP) [0.0]
機械学習(ML)とディープラーニング(DL)メソッドは、特にコンピュータネットワークセキュリティにおいて急速に採用されている。
MLとDLベースのモデルの透明性の欠如は、実装の大きな障害であり、ブラックボックスの性質から批判されている。
XAIは、これらのモデルの信頼性を向上させる上で、説明やアウトプットの解釈を通じて有望な分野である。
論文 参考訳(メタデータ) (2021-12-14T09:42:04Z) - ProtoShotXAI: Using Prototypical Few-Shot Architecture for Explainable
AI [4.629694186457133]
説明不能なブラックボックスモデルは、異常が有害な応答を引き起こし、受け入れられないリスクを生み出すシナリオを作成する。
本稿では、プロトタイプ数ショットネットワークを用いて、異なるクラスの非線形特徴間の対照的な多様体を探索するProtoShotXAIを提案する。
我々のアプローチは、ローカルに解釈可能な最初のXAIモデルであり、数ショットのネットワークに拡張し、実証することができる。
論文 参考訳(メタデータ) (2021-10-22T05:24:52Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。