論文の概要: Interpretability Transfer from Language to Vision via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2605.24946v1
- Date: Sun, 24 May 2026 08:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.532835
- Title: Interpretability Transfer from Language to Vision via Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによる言語から視覚への解釈可能性伝達
- Authors: Alexey Kravets, Da Li, Chuan Li, Da Chen, Vinay P. Namboodiri,
- Abstract要約: スパースオートエンコーダ(SAE)を用いた言語モデル解釈の最近の進歩は、視覚領域に効果的に翻訳されていない。
SAE Transfer Alignment (VISTA) は,LLaVAスタイルの視覚言語モデルにおいて,言語から視覚へ解釈可能性を伝達するフレームワークである。
- 参考スコア(独自算出の注目度): 24.472985705517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in language model interpretability using sparse autoencoders (SAEs) have yet to effectively translate to the visual domain, mainly due to the difficulty and ambiguity of labeling visual concepts. In this paper, we introduce Visual Interpretability via SAE Transfer Alignment (VISTA), a framework that transfers interpretability from language to vision in a LLaVA-style vision-language model by constraining a visual projector to map visual tokens into an LLM's pre-existing, labeled textual SAE space. This approach enables visual interpretability without training dedicated vision SAEs. By regularizing the projector using the LLM's SAE reconstruction loss, VISTA achieves a threefold increase in the matching rate, which measures how accurately the most activating textual concepts in the SAE space correspond to semantic elements in the image. Using this framework, we further analyze spatial localization properties of different vision encoders and show that DINOv2 features have stronger localization abilities than other encoders. Leveraging this precision, we validate VISTA's cross-modal alignment through fine-grained, localized concept interventions, where specific objects are removed or replaced in the model's perception while preserving the surrounding scene. This results in improvements of 35% in object removal and 47% in object replacement tasks over vision-only baselines, providing causal evidence that visual tokens inhabit the text SAE manifold. These contributions are validated across multiple LLM architectures.
- Abstract(参考訳): スパースオートエンコーダ(SAE)を用いた言語モデル解釈の最近の進歩は、視覚概念のラベル付けの難しさと曖昧さから、視覚領域に効果的に対応していない。
本稿では、視覚プロジェクタをLLMの既存のラベル付きテキストSAE空間にマッピングすることで、LLaVAスタイルの視覚言語モデルにおいて、言語から視覚へ解釈可能性を伝達するフレームワークであるSAE Transfer Alignment (VISTA) を用いて視覚的解釈可能性を紹介する。
このアプローチは、専用の視覚SAEを訓練することなく、視覚的解釈を可能にする。
LLMのSAE再構成損失を用いてプロジェクターを正規化することにより、VISTAはマッチングレートの3倍の増大を達成する。
このフレームワークを用いて、異なる視覚エンコーダの空間的ローカライゼーション特性を解析し、DINOv2特徴が他のエンコーダよりも強いローカライゼーション能力を有することを示す。
この精度を生かして、VISTAの細粒度で局所的な概念介入を通じて、周囲のシーンを保存しながら、特定の物体をモデルの知覚で取り除いたり、置き換えたりすることで、モーダルアライメントを検証する。
その結果、視覚のみのベースラインよりも35%のオブジェクト除去と47%のオブジェクト置換タスクが改善され、視覚トークンがテキストSAE多様体に存在するという因果的証拠が得られた。
これらの貢献は、複数のLLMアーキテクチャにまたがって検証される。
関連論文リスト
- Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
視覚言語モデル(VLM)が視覚および言語表現のアライメントを実現するメカニズムについて検討する。
言語モデルを凍結させることにより、視覚データに適応することなく、元の言語表現を確実に維持する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding [79.43306110124875]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。