論文の概要: Concept Regions Matter: Benchmarking CLIP with a New Cluster-Importance Approach
- arxiv url: http://arxiv.org/abs/2511.12978v1
- Date: Mon, 17 Nov 2025 05:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.667747
- Title: Concept Regions Matter: Benchmarking CLIP with a New Cluster-Importance Approach
- Title(参考訳): 概念領域が重要: 新しいクラスタ・インポータンスアプローチでCLIPをベンチマークする
- Authors: Aishwarya Agarwal, Srikrishna Karanam, Vineet Gandhi,
- Abstract要約: クラスタベースの概念重要度(CCI)は、新しい解釈可能性手法である。
CCIは、忠実度ベンチマークの新たな最先端を定めている。
今回,18種類のCLIPの包括的評価を行った。
- 参考スコア(独自算出の注目度): 20.898059440239603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive vision-language models (VLMs) such as CLIP achieve strong zero-shot recognition yet remain vulnerable to spurious correlations, particularly background over-reliance. We introduce Cluster-based Concept Importance (CCI), a novel interpretability method that uses CLIP's own patch embeddings to group spatial patches into semantically coherent clusters, mask them, and evaluate relative changes in model predictions. CCI sets a new state of the art on faithfulness benchmarks, surpassing prior methods by large margins; for example, it yields more than a twofold improvement on the deletion-AUC metric for MS COCO retrieval. We further propose that CCI, when combined with GroundedSAM, automatically categorizes predictions as foreground- or background-driven, providing a crucial diagnostic ability. Existing benchmarks such as CounterAnimals, however, rely solely on accuracy and implicitly attribute all performance degradation to background correlations. Our analysis shows this assumption to be incomplete, since many errors arise from viewpoint variation, scale shifts, and fine-grained object confusions. To disentangle these effects, we introduce COVAR, a benchmark that systematically varies object foregrounds and backgrounds. Leveraging CCI with COVAR, we present a comprehensive evaluation of eighteen CLIP variants, offering methodological advances and empirical evidence that chart a path toward more robust VLMs.
- Abstract(参考訳): CLIPのような対照的な視覚言語モデル(VLM)は、強いゼロショット認識を実現するが、特に背景の過度な相関に弱いままである。
CCI(Cluster-based Concept Importance)は,CLIP独自のパッチ埋め込みを用いて,空間パッチを意味的に一貫性のあるクラスタにグループ化し,それらをマスキングし,モデル予測の相対的変化を評価する新しい解釈可能性手法である。
CCIは、従来の手法を大きなマージンで上回り、MS COCO検索のためのDeletion-AUCメトリックを2倍に改善する、新しい最先端の信頼度ベンチマークを定めている。
また,CCI と GroundedSAM を組み合わせることで,予測をフォアグラウンドないしバックグラウンド駆動型に分類し,診断能力を重要視することを提案する。
しかし、CounterAnimalsのような既存のベンチマークは精度のみに依存しており、すべてのパフォーマンス劣化を背景相関に暗黙的に関連付けている。
我々の分析では、多くの誤差は視点の変化、スケールシフト、微粒な物体の混乱から生じるため、この仮定は不完全であることが示されている。
これらの影響を解消するために,対象前景や背景を体系的に変化させるベンチマークであるCOVARを導入する。
CCIをCOVARで活用し、18種類のCLIP変異体を総合的に評価し、より堅牢なVLMへの道筋を示す方法論的進歩と実証的証拠を提供する。
関連論文リスト
- Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - Probabilistic Variational Contrastive Learning [8.23660331371415]
我々は,エビデンスローバウンド(ELBO)を最大化するデコーダフリーフレームワークを提案する。
約$q_theta(z|x)$を投影正規分布としてモデル化し、確率的埋め込みのサンプリングを可能にする。
論文 参考訳(メタデータ) (2025-06-11T20:26:07Z) - ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction [7.353998772647553]
Any-to-Any Self-Distillation (ATAS)は、セマンティックコヒーレンスときめ細かいアライメントを同時に強化する新しいアプローチである。
ATASはオープン語彙オブジェクト検出とセマンティックセグメンテーションのベンチマークでかなりの性能向上を達成した。
論文 参考訳(メタデータ) (2025-06-10T10:40:10Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Interaction-Aware Gaussian Weighting for Clustered Federated Learning [58.92159838586751]
フェデレートラーニング(FL)は、プライバシを維持しながらモデルをトレーニングするための分散パラダイムとして登場した。
本稿では,新たなクラスタリングFL法であるFedGWC(Federated Gaussian Weighting Clustering)を提案する。
ベンチマークデータセットを用いた実験により,FedGWCはクラスタの品質と分類精度において,既存のFLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-05T16:33:36Z) - MetaCoCo: A New Few-Shot Classification Benchmark with Spurious Correlation [46.50551811108464]
実世界のシナリオから収集したスプリアス相関シフトを用いたベンチマークを提案する。
また,CLIPを事前学習した視覚言語モデルとして用いたメトリクスを提案する。
実験結果から,既存手法の性能はスプリアス相関シフトの有無で著しく低下することがわかった。
論文 参考訳(メタデータ) (2024-04-30T15:45:30Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。