論文の概要: Explaining CLIP Zero-shot Predictions Through Concepts
- arxiv url: http://arxiv.org/abs/2603.28211v1
- Date: Mon, 30 Mar 2026 09:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.32188
- Title: Explaining CLIP Zero-shot Predictions Through Concepts
- Title(参考訳): 概念によるCLIPゼロショット予測の解説
- Authors: Onat Ozdemir, Anders Christensen, Stephan Alaniz, Zeynep Akata, Emre Akbas,
- Abstract要約: EZPCを導入し,CLIPのゼロショット予測を人間に理解可能な概念で説明する。
本手法は,言語記述から学習した概念空間にCLIPの合同画像テキスト埋め込みを投影する。
提案手法は,CLIPの強いゼロショット分類精度を維持しつつ,意味のある概念レベルの説明を提供する。
- 参考スコア(独自算出の注目度): 54.05282304471016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models such as CLIP have achieved remarkable success in zero-shot image recognition, yet their predictions remain largely opaque to human understanding. In contrast, Concept Bottleneck Models provide interpretable intermediate representations by reasoning through human-defined concepts, but they rely on concept supervision and lack the ability to generalize to unseen classes. We introduce EZPC that bridges these two paradigms by explaining CLIP's zero-shot predictions through human-understandable concepts. Our method projects CLIP's joint image-text embeddings into a concept space learned from language descriptions, enabling faithful and transparent explanations without additional supervision. The model learns this projection via a combination of alignment and reconstruction objectives, ensuring that concept activations preserve CLIP's semantic structure while remaining interpretable. Extensive experiments on five benchmark datasets, CIFAR-100, CUB-200-2011, Places365, ImageNet-100, and ImageNet-1k, demonstrate that our approach maintains CLIP's strong zero-shot classification accuracy while providing meaningful concept-level explanations. By grounding open-vocabulary predictions in explicit semantic concepts, our method offers a principled step toward interpretable and trustworthy vision-language models. Code is available at https://github.com/oonat/ezpc.
- Abstract(参考訳): CLIPのような大規模視覚言語モデルはゼロショット画像認識において顕著な成功を収めているが、その予測は人間の理解には不透明なままである。
対照的に、Concept Bottleneck Modelsは人間の定義した概念を推論することで解釈可能な中間表現を提供するが、それらは概念の監督に依存しており、目に見えないクラスに一般化する能力がない。
本稿では,この2つのパラダイムを橋渡しするEZPCを紹介する。
提案手法では,言語記述から学習した概念空間にCLIPの合同画像テキスト埋め込みを投影し,追加の監督なしに忠実で透明な説明を可能にする。
このモデルは、アライメントと再構成の目的の組み合わせによってこのプロジェクションを学習し、CLIPのセマンティック構造を維持しながら、概念のアクティベーションが解釈可能であることを保証する。
CIFAR-100, CUB-200-2011, Places365, ImageNet-100, ImageNet-1kの5つのベンチマークデータセットに対する大規模な実験により,本手法はCLIPの強力なゼロショット分類精度を維持しつつ, 意味のある概念レベルの説明を提供する。
オープン語彙予測を明示的なセマンティック概念に基礎づけることにより,本手法は,解釈可能かつ信頼性の高い視覚言語モデルへの原則的なステップを提供する。
コードはhttps://github.com/oonat/ezpc.comで入手できる。
関連論文リスト
- Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition [81.2779530670268]
VLM(Vision-Language Models)は、ゼロショット画像認識を著しく進歩させたモデルである。
本稿では、クラス固有の概念を取り入れることで、プロンプトを強化する。
我々の手法は一貫して最先端の手法より優れている。
論文 参考訳(メタデータ) (2026-03-09T03:11:11Z) - Insight: Interpretable Semantic Hierarchies in Vision-Language Encoders [52.94006363830628]
言語対応の視覚基盤モデルは、下流の様々なタスクで強く機能する。
近年の研究では、これらの表現を人間の解釈可能な概念に分解するが、空間的接地が乏しく、画像分類に限られている。
入力画像に人間が解釈可能で空間的に接地した、きめ細かい概念を提供する言語対応概念基盤モデルであるInsightを提案する。
論文 参考訳(メタデータ) (2026-01-20T09:57:26Z) - FaCT: Faithful Concept Traces for Explaining Neural Network Decisions [56.796533084868884]
ディープネットワークは、幅広いタスクで顕著なパフォーマンスを示しているが、それらの機能に関するグローバルな概念レベルの理解は、依然として重要な課題である。
本稿では,概念に基づく説明の忠実さを強調し,モデル独立な機械的概念説明を用いた新しいモデルを提案する。
私たちの概念はクラス間で共有され、あらゆるレイヤから、ロジットへの貢献と入力-視覚化を忠実にトレースすることができます。
論文 参考訳(メタデータ) (2025-10-29T13:35:46Z) - Enhancing Concept Localization in CLIP-based Concept Bottleneck Models [11.592826680892367]
概念ボトルネックモデル(CBM)は明示的な概念アノテーションを必要とせず、代わりにゼロショットでCLIPを用いて抽出した概念に依存していることを示す。
本稿では,画像の埋め込みをアンタングル化し,対象とする概念に対応する画素をローカライズする手法である,局所的解釈可能性(CHILI)による概念幻覚抑制について紹介する。
論文 参考訳(メタデータ) (2025-10-08T15:07:16Z) - Interpreting and Analysing CLIP's Zero-Shot Image Classification via Mutual Knowledge [20.09852220432504]
Contrastive Language-Image Pretraining (CLIP)は画像とテキストのクラス表現を共有埋め込み空間にマッピングすることでゼロショット画像分類を行う。
この研究は、2つのモード間の相互知識のレンズから、画像分類のためのCLIPモデルを解釈するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2024-10-16T20:18:21Z) - Explain via Any Concept: Concept Bottleneck Model with Open Vocabulary Concepts [8.028021897214238]
OpenCBMはオープン語彙の概念を持つ最初のCBMである。
ベンチマークデータセットCUB-200-2011の分類精度は,従来のCBMよりも9%向上した。
論文 参考訳(メタデータ) (2024-08-05T06:42:00Z) - CEIR: Concept-based Explainable Image Representation Learning [0.4198865250277024]
本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。
提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。
CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
論文 参考訳(メタデータ) (2023-12-17T15:37:41Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - GlanceNets: Interpretabile, Leak-proof Concept-based Models [23.7625973884849]
概念ベースモデル(CBM)は、高レベルの概念の語彙の獲得と推論によって、ハイパフォーマンスと解釈可能性を組み合わせる。
我々は、モデル表現と基礎となるデータ生成プロセスとの整合性の観点から、解釈可能性を明確に定義する。
GlanceNetsは不整合表現学習とオープンセット認識の技法を利用してアライメントを実現する新しいCBMである。
論文 参考訳(メタデータ) (2022-05-31T08:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。