論文の概要: Interpreting the Linear Structure of Vision-language Model Embedding Spaces
- arxiv url: http://arxiv.org/abs/2504.11695v1
- Date: Wed, 16 Apr 2025 01:40:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:38:49.102262
- Title: Interpreting the Linear Structure of Vision-language Model Embedding Spaces
- Title(参考訳): 視覚言語埋め込み空間の線形構造を解釈する
- Authors: Isabel Papadimitriou, Huangyuan Su, Thomas Fel, Naomi Saphra, Sham Kakade, Stephanie Gil,
- Abstract要約: 我々は、4つの視覚言語モデルの埋め込み空間上でスパースオートエンコーダ(SAE)を訓練・リリースする。
SAEは実際の埋め込みを再構築するのに優れており、また最もスパース性を維持することができる。
また、SAEによって抽出される鍵となる活性化概念は、実行中において著しく安定であることを示す。
- 参考スコア(独自算出の注目度): 15.065914257384204
- License:
- Abstract: Vision-language models encode images and text in a joint space, minimizing the distance between corresponding image and text pairs. How are language and images organized in this joint space, and how do the models encode meaning and modality? To investigate this, we train and release sparse autoencoders (SAEs) on the embedding spaces of four vision-language models (CLIP, SigLIP, SigLIP2, and AIMv2). SAEs approximate model embeddings as sparse linear combinations of learned directions, or "concepts". We find that, compared to other methods of linear feature learning, SAEs are better at reconstructing the real embeddings, while also able to retain the most sparsity. Retraining SAEs with different seeds or different data diet leads to two findings: the rare, specific concepts captured by the SAEs are liable to change drastically, but we also show that the key commonly-activating concepts extracted by SAEs are remarkably stable across runs. Interestingly, while most concepts are strongly unimodal in activation, we find they are not merely encoding modality per se. Many lie close to - but not entirely within - the subspace defining modality, suggesting that they encode cross-modal semantics despite their unimodal usage. To quantify this bridging behavior, we introduce the Bridge Score, a metric that identifies concept pairs which are both co-activated across aligned image-text inputs and geometrically aligned in the shared space. This reveals that even unimodal concepts can collaborate to support cross-modal integration. We release interactive demos of the SAEs for all models, allowing researchers to explore the organization of the concept spaces. Overall, our findings uncover a sparse linear structure within VLM embedding spaces that is shaped by modality, yet stitched together through latent bridges-offering new insight into how multimodal meaning is constructed.
- Abstract(参考訳): 視覚言語モデルは、画像とテキストを共同空間にエンコードし、対応する画像とテキストペア間の距離を最小限にする。
この共同空間における言語とイメージの整理はどのようにして行われ、モデルは意味とモダリティをエンコードするか?
そこで我々は,4つの視覚言語モデル(CLIP, SigLIP, SigLIP2, AIMv2)の埋め込み空間上で,スパースオートエンコーダ(SAE)を訓練・リリースする。
SAEの近似モデル埋め込みは、学習方向の疎線型結合、つまり「概念」である。
線形特徴学習の他の方法と比較して、SAEは実際の埋め込みを再構築するのに優れており、最も親密性を維持することができる。
異なる種や異なるデータダイエットでSAEをリトレーニングすることは、2つの発見につながる: 希少で特異な概念はSAEによって大きく変化するが、SAEによって抽出される主要な共通活性化概念は、実行中に著しく安定していることも示している。
興味深いことに、ほとんどの概念はアクティベーションにおいて強い単調であるが、それらが単にモダリティを符号化しているわけではない。
多くは、モダリティを定義する部分空間に近づき、モダリティの使い方にもかかわらず、モダリティ間のセマンティクスをエンコードしている。
このブリッジの挙動を定量的に評価するために、Bridge Scoreという概念対を、整列された画像テキストの入力間で協調して活性化し、共有空間に幾何学的に整列するメトリクスを紹介した。
これは、アンモダルの概念でさえ、モダル間の統合をサポートするために協力できることを示している。
我々は、すべてのモデルを対象としたSAEのインタラクティブなデモをリリースし、研究者が概念空間の組織を探索できるようにする。
総じて,VLM埋設空間内の細い線状構造がモジュラリティによって形成されながら,潜在橋梁を通して縫合され,マルチモーダルな意味がどう構築されるかという新たな知見が得られた。
関連論文リスト
- Exploring the Small World of Word Embeddings: A Comparative Study on Conceptual Spaces from LLMs of Different Scales [47.52062992606549]
概念空間は概念をノードとして、意味的関連性はエッジとして表現する。
様々なスケールの大規模言語モデルから単語埋め込みを用いて概念空間を構築する。
我々は,概念的ペア,WordNet関係,質的な単語に対する言語間セマンティックネットワークを解析する。
論文 参考訳(メタデータ) (2025-02-17T02:52:07Z) - Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment [6.614005142754584]
ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。
USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
論文 参考訳(メタデータ) (2025-02-06T02:06:16Z) - Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。
既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。
本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T14:27:30Z) - Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。