論文の概要: From What to How: Attributing CLIP's Latent Components Reveals Unexpected Semantic Reliance
- arxiv url: http://arxiv.org/abs/2505.20229v1
- Date: Mon, 26 May 2025 17:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:27.03424
- Title: From What to How: Attributing CLIP's Latent Components Reveals Unexpected Semantic Reliance
- Title(参考訳): CLIPの潜伏コンポーネントに期待できないセマンティック信頼性をもたらす方法
- Authors: Maximilian Dreyer, Lorenz Hufe, Jim Berend, Thomas Wiegand, Sebastian Lapuschkin, Wojciech Samek,
- Abstract要約: 我々は,潜在コンポーネントが何を活性化するか,期待されるセマンティクスとどのように一致しているか,予測にどの程度重要かを明らかにするフレームワークを導入する。
本手法は,多文語,複合名詞,視覚タイポグラフィ,データセットアーティファクトに関連付けられた何百もの驚くべき成分を明らかにする。
- 参考スコア(独自算出の注目度): 14.30327576545802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based CLIP models are widely used for text-image probing and feature extraction, making it relevant to understand the internal mechanisms behind their predictions. While recent works show that Sparse Autoencoders (SAEs) yield interpretable latent components, they focus on what these encode and miss how they drive predictions. We introduce a scalable framework that reveals what latent components activate for, how they align with expected semantics, and how important they are to predictions. To achieve this, we adapt attribution patching for instance-wise component attributions in CLIP and highlight key faithfulness limitations of the widely used Logit Lens technique. By combining attributions with semantic alignment scores, we can automatically uncover reliance on components that encode semantically unexpected or spurious concepts. Applied across multiple CLIP variants, our method uncovers hundreds of surprising components linked to polysemous words, compound nouns, visual typography and dataset artifacts. While text embeddings remain prone to semantic ambiguity, they are more robust to spurious correlations compared to linear classifiers trained on image embeddings. A case study on skin lesion detection highlights how such classifiers can amplify hidden shortcuts, underscoring the need for holistic, mechanistic interpretability. We provide code at https://github.com/maxdreyer/attributing-clip.
- Abstract(参考訳): トランスフォーマーベースのCLIPモデルは、テキストイメージの探索と特徴抽出に広く使われており、予測の背後にある内部メカニズムを理解することに関係している。
最近の研究は、スパースオートエンコーダ(SAE)が解釈可能な潜在コンポーネントを生成することを示しているが、これらのエンコードが何であり、どのように予測を駆動するかに重点を置いている。
我々は、潜在コンポーネントが何を活性化するか、期待されるセマンティクスとどのように一致しているか、予測にどれほど重要かを明らかにするスケーラブルなフレームワークを紹介します。
これを実現するために、CLIPのインスタンス単位の属性に対する属性パッチの適用と、広く使用されているLogit Lens技術の重要な忠実度制限の強調を行う。
属性とセマンティックアライメントスコアを組み合わせることで、セマンティックな予期せぬ概念や刺激的な概念をエンコードするコンポーネントへの依存を自動的に見つけ出すことができる。
複数のCLIP変異体に適用し、多文語、複合名詞、視覚タイポグラフィー、データセットアーティファクトに関連する何百もの驚くべきコンポーネントを探索する。
テキストの埋め込みは意味的あいまいさを伴わないが、画像埋め込みで訓練された線形分類器に比べて、素早い相関に頑健である。
皮膚病変検出のケーススタディでは、そのような分類器が隠れたショートカットを増幅し、全体論的、機械的解釈性の必要性を強調している。
私たちはhttps://github.com/maxdreyer/attributing-clip.comでコードを提供しています。
関連論文リスト
- Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning [46.25534556546322]
そこで本稿では,イメージ・アンカー関係から画像・ターゲット関係に遷移して予測を行うアンカーとしてオープンセマンティクスを抽出することを提案する。
本手法は, 数ショットの分類設定を考慮し, 従来の最先端技術に対して良好に機能する。
論文 参考訳(メタデータ) (2024-06-17T06:28:58Z) - Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues [55.97779732051921]
オーキューを分類器学習に明示的に組み込むための新しい学習戦略が提案されている。
分類性能を劣化させることなく階層的解釈性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-01T02:13:49Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - Learning CLIP Guided Visual-Text Fusion Transformer for Video-based
Pedestrian Attribute Recognition [23.748227536306295]
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
ビデオベースPARを視覚言語融合問題として定式化し,事前学習された大規模モデルCLIPを用いて,映像フレームの機能埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-04-20T05:18:28Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。