論文の概要: Steering CLIP's vision transformer with sparse autoencoders
- arxiv url: http://arxiv.org/abs/2504.08729v1
- Date: Fri, 11 Apr 2025 17:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:20:24.270208
- Title: Steering CLIP's vision transformer with sparse autoencoders
- Title(参考訳): スパースオートエンコーダを用いたCLIPの視覚変換器のステアリング
- Authors: Sonia Joseph, Praneet Suresh, Ethan Goldfarb, Lorenz Hufe, Yossi Gandelsman, Robert Graham, Danilo Bzdok, Wojciech Samek, Blake Aaron Richards,
- Abstract要約: 私たちは、CLIPの視覚変換器でスパースオートエンコーダ(SAE)を訓練し、視覚と言語処理の主な違いを明らかにする。
10~15%のニューロンと特徴がステアリング可能であり、SAEはベースモデルよりも数千のステアリング可能な特徴を提供する。
- 参考スコア(独自算出の注目度): 20.63298721008492
- License:
- Abstract: While vision models are highly capable, their internal mechanisms remain poorly understood -- a challenge which sparse autoencoders (SAEs) have helped address in language, but which remains underexplored in vision. We address this gap by training SAEs on CLIP's vision transformer and uncover key differences between vision and language processing, including distinct sparsity patterns for SAEs trained across layers and token types. We then provide the first systematic analysis on the steerability of CLIP's vision transformer by introducing metrics to quantify how precisely SAE features can be steered to affect the model's output. We find that 10-15\% of neurons and features are steerable, with SAEs providing thousands more steerable features than the base model. Through targeted suppression of SAE features, we then demonstrate improved performance on three vision disentanglement tasks (CelebA, Waterbirds, and typographic attacks), finding optimal disentanglement in middle model layers, and achieving state-of-the-art performance on defense against typographic attacks.
- Abstract(参考訳): 視覚モデルは高い能力を持つが、その内部メカニズムは未理解のままであり、スパースオートエンコーダ(SAE)が言語で対処するのに役立ったが、視覚では未解明のままである。
このギャップに対処するために、CLIPのビジョントランスフォーマーでSAEをトレーニングし、レイヤやトークンタイプでトレーニングされたSAEに対して、視覚と言語処理の主な違いを明らかにする。
次に,CLIPの視覚変換器の可視性に関する最初のシステマティック分析を行い,SAE機能がモデルの出力にどの程度の精度で影響するかを定量化する。
10~15\%のニューロンと特徴がステアリング可能であり、SAEはベースモデルよりも数千以上のステアリング可能な特徴を提供する。
そこで本研究では,SAEの特徴を抑えることによって,3つの視覚障害タスク(CelebA,Waterbirds,Tempographic attack)の性能向上,中間モデル層における最適アンタングルの発見,およびタイポグラフィ攻撃に対する防御における最先端のパフォーマンス向上を実証する。
関連論文リスト
- Sparse Autoencoder Features for Classifications and Transferability [11.2185030332009]
大規模言語モデル(LLM)からの特徴抽出のためのスパースオートエンコーダ(SAE)の解析
本フレームワークは,(1)モデル層選択とスケーリング特性,(2)幅とプール戦略を含むSAEアーキテクチャ構成,(3)連続SAE活性化のバイナライズ効果を評価する。
論文 参考訳(メタデータ) (2025-02-17T02:30:45Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Interpretable Vision-Language Survival Analysis with Ordinal Inductive Bias for Computational Pathology [15.83613460419667]
Histo Whole-Slide Images (WSIs) は、CPATHにおける癌予後を評価する重要なツールである
既存のサバイバル分析アプローチはエキサイティングな進歩を遂げているが、一般的には高度に表現力のあるネットワークアーキテクチャを採用するに限られている。
本稿では,VLSA(Vision-Language-based SA)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-14T08:47:45Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Learning Self-Regularized Adversarial Views for Self-Supervised Vision
Transformers [105.89564687747134]
本稿では,自己監督型視覚変換器のビューを学習するための自己正規化自動拡張手法を提案する。
まず、ビューとネットワークパラメータを同時に学習することで、AutoViewの検索コストをほぼゼロに削減する。
また、自己教師型学習のための強化政策探索空間も提示する。
論文 参考訳(メタデータ) (2022-10-16T06:20:44Z) - SLIP: Self-supervision meets Language-Image Pre-training [79.53764315471543]
自己指導型学習が視覚表現学習における言語指導の活用に役立つかどうかを考察する。
自己教師付き学習とCLIP事前学習を組み合わせたマルチタスク学習フレームワークSLIPを紹介する。
SLIPは、自己監督や言語監督よりも優れたパフォーマンスを享受しています。
論文 参考訳(メタデータ) (2021-12-23T18:07:13Z) - Lite Vision Transformer with Enhanced Self-Attention [39.32480787105232]
2つの拡張自己注意機構を持つ新しい軽量ビジョントランスネットワークLVTを提案する。
低レベルの機能については、CSA(Convolutional Self-Attention)を紹介します。
高次機能のために、再帰的アトラス自己注意(RASA)を提案する。
論文 参考訳(メタデータ) (2021-12-20T19:11:53Z) - Self-Supervised Models are Continual Learners [79.70541692930108]
本研究では, 自己教師付き損失関数を連続学習のための蒸留機構にシームレスに変換可能であることを示す。
我々は,学習した表現の質を大幅に向上させる連続的自己教師型視覚表現学習の枠組みを考案した。
論文 参考訳(メタデータ) (2021-12-08T10:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。