論文の概要: VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set
- arxiv url: http://arxiv.org/abs/2510.21323v1
- Date: Fri, 24 Oct 2025 10:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.436983
- Title: VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set
- Title(参考訳): VL-SAE:統一概念集合による視覚言語アライメントの解釈と強化
- Authors: Shufan Shen, Junshu Sun, Qingming Huang, Shuhui Wang,
- Abstract要約: 視覚言語表現のアライメントは、強いマルチモーダル推論能力を持つ現在のビジョン言語モデルを実現する。
視覚言語表現をその隠れアクティベーションにエンコードするスパースオートエンコーダVL-SAEを提案する。
解釈において、視覚と言語表現のアライメントは、意味論と概念を比較することで理解することができる。
- 参考スコア(独自算出の注目度): 80.50996301430108
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The alignment of vision-language representations endows current Vision-Language Models (VLMs) with strong multi-modal reasoning capabilities. However, the interpretability of the alignment component remains uninvestigated due to the difficulty in mapping the semantics of multi-modal representations into a unified concept set. To address this problem, we propose VL-SAE, a sparse autoencoder that encodes vision-language representations into its hidden activations. Each neuron in its hidden layer correlates to a concept represented by semantically similar images and texts, thereby interpreting these representations with a unified concept set. To establish the neuron-concept correlation, we encourage semantically similar representations to exhibit consistent neuron activations during self-supervised training. First, to measure the semantic similarity of multi-modal representations, we perform their alignment in an explicit form based on cosine similarity. Second, we construct the VL-SAE with a distance-based encoder and two modality-specific decoders to ensure the activation consistency of semantically similar representations. Experiments across multiple VLMs (e.g., CLIP, LLaVA) demonstrate the superior capability of VL-SAE in interpreting and enhancing the vision-language alignment. For interpretation, the alignment between vision and language representations can be understood by comparing their semantics with concepts. For enhancement, the alignment can be strengthened by aligning vision-language representations at the concept level, contributing to performance improvements in downstream tasks, including zero-shot image classification and hallucination elimination. Codes are available at https://github.com/ssfgunner/VL-SAE.
- Abstract(参考訳): 視覚言語表現のアライメントは、現在のビジョン言語モデル(VLM)に強力なマルチモーダル推論能力を与える。
しかし、マルチモーダル表現のセマンティクスを統一的な概念集合にマッピングすることの難しさから、アライメント成分の解釈性はいまだ解明されていない。
この問題に対処するために,視覚言語表現を隠れアクティベーションに符号化するスパースオートエンコーダVL-SAEを提案する。
隠れたレイヤの各ニューロンは、意味的に類似した画像やテキストで表される概念と相関し、これらの表現を統一された概念セットで解釈する。
本研究は,ニューロンと概念の相関を確立するために,自己指導訓練中に一貫したニューロン活性化を示すために,意味的に類似した表現を奨励する。
まず、マルチモーダル表現の意味的類似性を測定するために、コサイン類似性に基づいた明示的な形式でそれらのアライメントを実行する。
次に,VL-SAEを距離ベースエンコーダと2つのモード固有デコーダで構築し,意味論的に類似した表現の活性化の整合性を確保する。
複数のVLM(例えば、CLIP、LLaVA)にまたがる実験は、視覚言語アライメントの解釈と強化におけるVL-SAEの優れた能力を示す。
解釈において、視覚と言語表現のアライメントは、意味論と概念を比較することで理解することができる。
強調するために、このアライメントは概念レベルで視覚言語表現を整列することで強化され、ゼロショット画像分類や幻覚除去などの下流タスクのパフォーマンス向上に寄与する。
コードはhttps://github.com/ssfgunner/VL-SAEで入手できる。
関連論文リスト
- CLMN: Concept based Language Models via Neural Symbolic Reasoning [27.255064617527328]
概念言語モデルネットワーク(CLMN)は、パフォーマンスと解釈可能性の両方を維持するニューラルシンボリックフレームワークである。
CLMNは、連続的、人間可読な埋め込みとして概念を表現している。
Modelは、概念を意識した表現でオリジナルのテキスト機能を拡張し、解釈可能なロジックルールを自動的に誘導する。
論文 参考訳(メタデータ) (2025-10-11T06:58:44Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - 3VL: Using Trees to Improve Vision-Language Models' Interpretability [40.678288227161936]
VLM(Vision-Language Model)は、画像とテキストの表現の整列に有効であることが証明されており、多くの下流タスクに転送すると、より優れたゼロショット結果が得られる。
これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)を理解する際のいくつかの重要な欠点に悩まされる。
本稿では,木拡張ビジョンランゲージ(3VL)モデルのアーキテクチャとトレーニング手法を紹介する。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。