論文の概要: Probing the Representational Power of Sparse Autoencoders in Vision Models
- arxiv url: http://arxiv.org/abs/2508.11277v1
- Date: Fri, 15 Aug 2025 07:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.780232
- Title: Probing the Representational Power of Sparse Autoencoders in Vision Models
- Title(参考訳): 視覚モデルにおけるスパースオートエンコーダの表現力の探索
- Authors: Matthew Lyle Olson, Musashi Hinck, Neale Ratzlaff, Changbai Li, Phillip Howard, Vasudev Lal, Shao-Yen Tseng,
- Abstract要約: スパースオートエンコーダ(SAE)は,大規模言語モデル(LLM)の隠蔽状態を解釈するための一般的なツールとして登場した。
言語モデルに人気があるにもかかわらず、SAEは依然として視覚領域で研究されている。
我々は、幅広い画像ベースタスクを用いて、視覚モデルに対するSAEの表現力を広範囲に評価する。
- 参考スコア(独自算出の注目度): 6.7161402871287645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) have emerged as a popular tool for interpreting the hidden states of large language models (LLMs). By learning to reconstruct activations from a sparse bottleneck layer, SAEs discover interpretable features from the high-dimensional internal representations of LLMs. Despite their popularity with language models, SAEs remain understudied in the visual domain. In this work, we provide an extensive evaluation the representational power of SAEs for vision models using a broad range of image-based tasks. Our experimental results demonstrate that SAE features are semantically meaningful, improve out-of-distribution generalization, and enable controllable generation across three vision model architectures: vision embedding models, multi-modal LMMs and diffusion models. In vision embedding models, we find that learned SAE features can be used for OOD detection and provide evidence that they recover the ontological structure of the underlying model. For diffusion models, we demonstrate that SAEs enable semantic steering through text encoder manipulation and develop an automated pipeline for discovering human-interpretable attributes. Finally, we conduct exploratory experiments on multi-modal LLMs, finding evidence that SAE features reveal shared representations across vision and language modalities. Our study provides a foundation for SAE evaluation in vision models, highlighting their strong potential improving interpretability, generalization, and steerability in the visual domain.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)の隠蔽状態を解釈するための一般的なツールとして登場した。
スパースボトルネック層からの活性化を再構築することにより、SAEはLLMの高次元内部表現から解釈可能な特徴を発見する。
言語モデルに人気があるにもかかわらず、SAEは依然として視覚領域で研究されている。
本研究では,広い範囲のイメージベースタスクを用いて,視覚モデルに対するSAEの表現力について広範囲に評価する。
実験の結果,SAEの機能は意味論的に意味を持ち,分布外一般化を改善し,視覚モデルアーキテクチャ,マルチモーダルLMM,拡散モデルという3つのアーキテクチャで制御可能な生成を可能にすることがわかった。
視覚埋め込みモデルでは、学習されたSAE特徴をOOD検出に利用することができ、基礎となるモデルの存在論的構造を復元する証拠を提供する。
拡散モデルでは,SAEがテキストエンコーダ操作によるセマンティックステアリングを可能にし,人間の解釈可能な属性を発見するための自動パイプラインを開発することを実証する。
最後に,多モードLLMの探索実験を行い,SAE特徴が視覚と言語モダリティの共通表現を明らかにする証拠を見出した。
本研究は、視覚モデルにおけるSAE評価の基礎を提供し、視覚領域における解釈可能性、一般化、操舵性を向上させる可能性を強調した。
関連論文リスト
- Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models [27.806966289284528]
本稿では、スパースオートエンコーダ(SAE)を用いて、人間の解釈可能な視覚的特徴を発見する統一的なフレームワークを提案する。
そこで本研究では,SAEがモデル再学習を行なわずに,解釈可能な視覚特徴を確実に識別・操作できることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:32:41Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。