論文の概要: Analyzing Hierarchical Structure in Vision Models with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2505.15970v1
- Date: Wed, 21 May 2025 19:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.888341
- Title: Analyzing Hierarchical Structure in Vision Models with Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダを用いた視覚モデルにおける階層構造の解析
- Authors: Matthew Lyle Olson, Musashi Hinck, Neale Ratzlaff, Changbai Li, Phillip Howard, Vasudev Lal, Shao-Yen Tseng,
- Abstract要約: ImageNet階層は、オブジェクトカテゴリの構造的な分類を提供し、ディープビジョンモデルによって学習された表現を分析するための貴重なレンズを提供する。
本研究では,視覚モデルがイメージネット階層をエンコードする方法を包括的に分析し,スパースオートエンコーダ(SAE)を用いて内部表現を探索する。
- 参考スコア(独自算出の注目度): 6.7161402871287645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ImageNet hierarchy provides a structured taxonomy of object categories, offering a valuable lens through which to analyze the representations learned by deep vision models. In this work, we conduct a comprehensive analysis of how vision models encode the ImageNet hierarchy, leveraging Sparse Autoencoders (SAEs) to probe their internal representations. SAEs have been widely used as an explanation tool for large language models (LLMs), where they enable the discovery of semantically meaningful features. Here, we extend their use to vision models to investigate whether learned representations align with the ontological structure defined by the ImageNet taxonomy. Our results show that SAEs uncover hierarchical relationships in model activations, revealing an implicit encoding of taxonomic structure. We analyze the consistency of these representations across different layers of the popular vision foundation model DINOv2 and provide insights into how deep vision models internalize hierarchical category information by increasing information in the class token through each layer. Our study establishes a framework for systematic hierarchical analysis of vision model representations and highlights the potential of SAEs as a tool for probing semantic structure in deep networks.
- Abstract(参考訳): ImageNet階層は、オブジェクトカテゴリの構造的な分類を提供し、ディープビジョンモデルによって学習された表現を分析するための貴重なレンズを提供する。
本研究では,視覚モデルがイメージネット階層をエンコードする方法を包括的に分析し,スパースオートエンコーダ(SAE)を用いて内部表現を探索する。
SAEは大規模言語モデル(LLM)の説明ツールとして広く使われており、意味論的に意味のある特徴の発見を可能にしている。
ここでは、画像ネット分類法で定義された存在論的構造と、学習された表現が一致するかどうかを視覚モデルに拡張する。
以上の結果から,SAEはモデルアクティベーションにおける階層的関係を明らかにするとともに,分類学的構造を暗黙的に符号化していることが明らかとなった。
一般的な視覚基盤モデルDINOv2の異なる層にまたがるこれらの表現の一貫性を解析し、各層を通してクラストークンの情報を増やすことにより、深い視覚モデルが階層的なカテゴリ情報を内部化する方法についての洞察を提供する。
本研究は、視覚モデル表現の体系的階層的解析のための枠組みを確立し、深層ネットワークにおける意味構造を探索するツールとしてのSAEの可能性を強調する。
関連論文リスト
- Language Model as Visual Explainer [72.88137795439407]
本稿では,木構造言語学的説明を用いた視覚モデル解釈のための体系的アプローチを提案する。
提案手法は,属性を付与した木の形で人間に理解可能な説明を提供する。
提案手法の有効性を確認するため,新しいベンチマークを導入し,厳密な評価を行う。
論文 参考訳(メタデータ) (2024-12-08T20:46:23Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - Emergent Language Symbolic Autoencoder (ELSA) with Weak Supervision to Model Hierarchical Brain Networks [0.12075823996747355]
脳ネットワークには階層的な組織があり、既存のディープラーニングモデルに課題をもたらす複雑性がある。
本稿では,弱い監督と創発的言語(EL)フレームワークによって情報を得るシンボリックオートエンコーダを提案する。
私たちの革新には、文と画像の両方が機能的脳ネットワークの階層構造を正確に反映するように設計された一般化階層的損失関数が含まれています。
論文 参考訳(メタデータ) (2024-04-15T13:51:05Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Experimental Observations of the Topology of Convolutional Neural
Network Activations [2.4235626091331737]
トポロジカル・データ解析は、複雑な構造のコンパクトでノイズ・ロバストな表現を提供する。
ディープニューラルネットワーク(DNN)は、モデルアーキテクチャによって定義された一連の変換に関連する数百万のパラメータを学習する。
本稿では,画像分類に使用される畳み込みニューラルネットワークの解釈可能性に関する知見を得る目的で,TDAの最先端技術を適用した。
論文 参考訳(メタデータ) (2022-12-01T02:05:44Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。