論文の概要: LUCID-SAE: Learning Unified Vision-Language Sparse Codes for Interpretable Concept Discovery
- arxiv url: http://arxiv.org/abs/2602.07311v1
- Date: Sat, 07 Feb 2026 02:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.568631
- Title: LUCID-SAE: Learning Unified Vision-Language Sparse Codes for Interpretable Concept Discovery
- Title(参考訳): LUCID-SAE:理解可能な概念発見のための統一視覚言語スパース符号の学習
- Authors: Difei Gu, Yunhe Gao, Gerasimos Chatzoudis, Zihan Dong, Guoning Zhang, Bangwei Guo, Yang Zhou, Mu Zhou, Dimitris Metaxas,
- Abstract要約: LUCIDは、画像パッチとテキストトークン表現のための共有潜在辞書を学習する視覚言語スパースオートエンコーダである。
LUCIDは、パッチレベルのグラウンド化をサポートし、クロスモーダルなニューロン対応を確立し、概念クラスタリング問題に対する堅牢性を高める、解釈可能な共有特徴をもたらす。
我々の分析では、LUCIDの共有機能は、アクション、属性、抽象概念を含む、オブジェクト以外の多様なセマンティックなカテゴリをキャプチャする。
- 参考スコア(独自算出の注目度): 14.222802170483739
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse autoencoders (SAEs) offer a natural path toward comparable explanations across different representation spaces. However, current SAEs are trained per modality, producing dictionaries whose features are not directly understandable and whose explanations do not transfer across domains. In this study, we introduce LUCID (Learning Unified vision-language sparse Codes for Interpretable concept Discovery), a unified vision-language sparse autoencoder that learns a shared latent dictionary for image patch and text token representations, while reserving private capacity for modality-specific details. We achieve feature alignment by coupling the shared codes with a learned optimal transport matching objective without the need of labeling. LUCID yields interpretable shared features that support patch-level grounding, establish cross-modal neuron correspondence, and enhance robustness against the concept clustering problem in similarity-based evaluation. Leveraging the alignment properties, we develop an automated dictionary interpretation pipeline based on term clustering without manual observations. Our analysis reveals that LUCID's shared features capture diverse semantic categories beyond objects, including actions, attributes, and abstract concepts, demonstrating a comprehensive approach to interpretable multimodal representations.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、異なる表現空間にまたがる同等の説明への自然な経路を提供する。
しかし、現在のSAEはモダリティごとに訓練されており、特徴が直接的に理解できず、説明がドメイン間で伝達されない辞書を生成する。
本研究では,LUCID(Learning Unified Vision- Language sparse Codes for Interpretable concept Discovery, LUCID)を導入し,画像パッチとテキストトークン表現の共用辞書を学習する。
我々は、ラベリングを必要とせずに、共有コードと学習した最適なトランスポートマッチング目標を結合して特徴整合を実現する。
LUCIDは、パッチレベルのグラウンド化をサポートし、クロスモーダルなニューロン対応を確立し、類似性に基づく評価において概念クラスタリング問題に対する堅牢性を高める、解釈可能な共有特徴を与える。
そこで我々は,アライメント特性を活用して,手動による観察を伴わない用語クラスタリングに基づく自動辞書解釈パイプラインを開発した。
分析の結果、LUCIDの共有機能は、アクション、属性、抽象概念を含むオブジェクト以外の多様なセマンティックなカテゴリをキャプチャし、解釈可能なマルチモーダル表現に対する包括的アプローチを示すことが明らかとなった。
関連論文リスト
- VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set [80.50996301430108]
視覚言語表現のアライメントは、強いマルチモーダル推論能力を持つ現在のビジョン言語モデルを実現する。
視覚言語表現をその隠れアクティベーションにエンコードするスパースオートエンコーダVL-SAEを提案する。
解釈において、視覚と言語表現のアライメントは、意味論と概念を比較することで理解することができる。
論文 参考訳(メタデータ) (2025-10-24T10:29:31Z) - Disentangling Latent Embeddings with Sparse Linear Concept Subspaces (SLiCS) [2.7255100506777894]
CLIPのようなビジョン言語の共同埋め込みネットワークは、セマンティック情報を備えた潜在的な埋め込み空間を提供する。
本稿では,ベクトル群の疎結合,非負結合からなる線形合成モデルを推定するための教師付き辞書学習手法を提案する。
スパース線形概念部分空間(SLiCS)によって提供される不整合埋め込みにより,概念フィルタリング画像の検索が可能となることを示す。
論文 参考訳(メタデータ) (2025-08-27T23:39:42Z) - Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability [54.420663939897686]
本稿では,解釈可能な画像認識を実現するために,Attribute-formed Language Bottleneck Model (ALBM)を提案する。
ALBMは属性形式クラス固有の空間において概念を整理する。
解釈性をさらに向上するため,細粒度属性の視覚的特徴を抽出するVAPL(Visual Attribute Prompt Learning)を提案する。
論文 参考訳(メタデータ) (2025-03-26T07:59:04Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。