論文の概要: Interpreting the linear structure of vision-language model embedding spaces
- arxiv url: http://arxiv.org/abs/2504.11695v3
- Date: Sun, 10 Aug 2025 17:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.264595
- Title: Interpreting the linear structure of vision-language model embedding spaces
- Title(参考訳): 視覚言語モデル埋め込み空間の線形構造を解釈する
- Authors: Isabel Papadimitriou, Huangyuan Su, Thomas Fel, Sham Kakade, Stephanie Gil,
- Abstract要約: 我々は、4つの視覚言語モデルの埋め込み空間上でスパースオートエンコーダ(SAE)を訓練・リリースする。
学習方向の疎線形結合としてのSAEs近似モデル埋め込み、あるいは「概念」
異なる種や異なるデータダイエットでSAEをリトレーニングすることは、2つの発見につながる。SAEによって得られた稀で特異な概念は、劇的に変化するが、一般的に活性化される概念は、実行中に著しく安定していることも示している。
- 参考スコア(独自算出の注目度): 12.846590038965774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models encode images and text in a joint space, minimizing the distance between corresponding image and text pairs. How are language and images organized in this joint space, and how do the models encode meaning and modality? To investigate this, we train and release sparse autoencoders (SAEs) on the embedding spaces of four vision-language models (CLIP, SigLIP, SigLIP2, and AIMv2). SAEs approximate model embeddings as sparse linear combinations of learned directions, or "concepts". We find that, compared to other methods of linear feature learning, SAEs are better at reconstructing the real embeddings, while also able to retain the most sparsity. Retraining SAEs with different seeds or different data diet leads to two findings: the rare, specific concepts captured by the SAEs are liable to change drastically, but we also show that commonly-activating concepts are remarkably stable across runs. Interestingly, while most concepts activate primarily for one modality, we find they are not merely encoding modality per se. Many are almost orthogonal to the subspace that defines modality, and the concept directions do not function as good modality classifiers, suggesting that they encode cross-modal semantics. To quantify this bridging behavior, we introduce the Bridge Score, a metric that identifies concept pairs which are both co-activated across aligned image-text inputs and geometrically aligned in the shared space. This reveals that even single-modality concepts can collaborate to support cross-modal integration. We release interactive demos of the SAEs for all models, allowing researchers to explore the organization of the concept spaces. Overall, our findings uncover a sparse linear structure within VLM embedding spaces that is shaped by modality, yet stitched together through latent bridges, offering new insight into how multimodal meaning is constructed.
- Abstract(参考訳): 視覚言語モデルは、画像とテキストを共同空間にエンコードし、対応する画像とテキストペア間の距離を最小限にする。
この共同空間における言語とイメージの整理はどのようにして行われ、モデルは意味とモダリティをエンコードするか?
そこで我々は,4つの視覚言語モデル(CLIP, SigLIP, SigLIP2, AIMv2)の埋め込み空間上で,スパースオートエンコーダ(SAE)を訓練・リリースする。
SAEの近似モデル埋め込みは、学習方向の疎線型結合、つまり「概念」である。
線形特徴学習の他の方法と比較して、SAEは実際の埋め込みを再構築するのに優れており、最も親密性を維持することができる。
異なる種や異なるデータダイエットでSAEをリトレーニングすることは、2つの発見につながる。SAEによって得られた稀で特異な概念は、劇的に変化するが、一般的に活性化される概念は、実行中に著しく安定していることも示している。
興味深いことに、ほとんどの概念は1つのモダリティに対して活性化されるが、それらが単にモダリティを符号化しているわけではない。
多くはモジュラリティを定義する部分空間にほぼ直交しており、概念の方向は良いモジュラリティ分類器として機能せず、それらがクロスモーダル意味論を符号化していることを示唆している。
このブリッジの挙動を定量的に評価するために、Bridge Scoreという概念対を、整列された画像テキストの入力間で協調して活性化し、共有空間に幾何学的に整列するメトリクスを紹介した。
これは、シングルモダリティの概念でさえ、クロスモダリティ統合をサポートするために協力できることを示している。
我々は、すべてのモデルを対象としたSAEのインタラクティブなデモをリリースし、研究者が概念空間の組織を探索できるようにする。
総じて,VLM埋設空間内の細い線状構造は,モダリティによって形成されながら,潜伏橋を通して縫合され,マルチモーダルな意味がどう構築されているか,新たな知見が得られた。
関連論文リスト
- SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability [9.90112908284836]
Sparse Autoencoders for Aligned Representation of Concepts)は,多種多様なアーキテクチャで共有される単一で統一された潜在空間を学習する新しいフレームワークである。
Open Imagesでは、概念のアライメントが劇的に改善され、ジャカードの類似性が0.80に到達した。
論文 参考訳(メタデータ) (2025-07-07T22:29:00Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - Exploring the Small World of Word Embeddings: A Comparative Study on Conceptual Spaces from LLMs of Different Scales [47.52062992606549]
概念空間は概念をノードとして、意味的関連性はエッジとして表現する。
様々なスケールの大規模言語モデルから単語埋め込みを用いて概念空間を構築する。
我々は,概念的ペア,WordNet関係,質的な単語に対する言語間セマンティックネットワークを解析する。
論文 参考訳(メタデータ) (2025-02-17T02:52:07Z) - Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment [6.614005142754584]
ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。
USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
論文 参考訳(メタデータ) (2025-02-06T02:06:16Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。