論文の概要: Explaining How Visual, Textual and Multimodal Encoders Share Concepts
- arxiv url: http://arxiv.org/abs/2507.18512v1
- Date: Thu, 24 Jul 2025 15:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.921666
- Title: Explaining How Visual, Textual and Multimodal Encoders Share Concepts
- Title(参考訳): ビジュアル、テキスト、マルチモーダルエンコーダのコンセプト共有について
- Authors: Clément Cornet, Romaric Besançon, Hervé Le Borgne,
- Abstract要約: スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションから人間の解釈可能な特徴を抽出する強力な技術として登場した。
以前の研究では、SAEから派生した特徴に基づいて異なるモデルを比較していたが、それらの比較は同じモードのモデルに限定されている。
本研究では,SAE特徴量間でモデルを定量的に比較可能な新しい指標を提案し,視覚,テキスト,マルチモーダルエンコーダの比較研究を行う。
- 参考スコア(独自算出の注目度): 4.203741981113582
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse autoencoders (SAEs) have emerged as a powerful technique for extracting human-interpretable features from neural networks activations. Previous works compared different models based on SAE-derived features but those comparisons have been restricted to models within the same modality. We propose a novel indicator allowing quantitative comparison of models across SAE features, and use it to conduct a comparative study of visual, textual and multimodal encoders. We also propose to quantify the Comparative Sharedness of individual features between different classes of models. With these two new tools, we conduct several studies on 21 encoders of the three types, with two significantly different sizes, and considering generalist and domain specific datasets. The results allow to revisit previous studies at the light of encoders trained in a multimodal context and to quantify to which extent all these models share some representations or features. They also suggest that visual features that are specific to VLMs among vision encoders are shared with text encoders, highlighting the impact of text pretraining. The code is available at https://github.com/CEA-LIST/SAEshareConcepts
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションから人間の解釈可能な特徴を抽出する強力な技術として登場した。
以前の研究では、SAEから派生した特徴に基づいて異なるモデルを比較していたが、それらの比較は同じモードのモデルに限定されている。
本研究では,SAE特徴量間でモデルを定量的に比較可能な新しい指標を提案し,視覚,テキスト,マルチモーダルエンコーダの比較研究を行う。
また、異なるモデルのクラス間での個々の特徴の比較共有度を定量化することを提案する。
これら2つの新しいツールを用いて、3種類の21のエンコーダについていくつかの研究を行い、2つの大きく異なるサイズと、ジェネラリストとドメイン固有のデータセットについて検討した。
その結果、マルチモーダルな文脈で訓練されたエンコーダの光で以前の研究を再考し、これらのモデルがどの程度に表現や特徴を共有しているかを定量化することができる。
また、視覚エンコーダ間のVLM特有の視覚的特徴は、テキストエンコーダと共有され、テキスト事前学習の影響が強調される。
コードはhttps://github.com/CEA-LIST/SAEshareConceptsで入手できる。
関連論文リスト
- Seeing What Tastes Good: Revisiting Multimodal Distributional Semantics in the Billion Parameter Era [16.50510044709939]
大量のデータに基づいて訓練された大規模モデルは,具体的な対象概念のセマンティックな特徴ノルムをいかによく表すかを検討する。
画像データだけで訓練された画像エンコーダと、マルチモーダルで訓練された画像エンコーダと言語のみのモデルを評価する。
論文 参考訳(メタデータ) (2025-06-04T14:18:35Z) - Exploring The Visual Feature Space for Multimodal Neural Decoding [5.19485079754946]
MLLM(Multimodal Large Language Models)における事前学習された視覚成分からの視覚特徴空間の選択について分析する。
MG-BrainDub(Multi-Granularity Brain Detail Understanding Benchmark)を提案する。
このベンチマークには2つの重要なタスクが含まれている。詳細な説明と、オブジェクト、属性、リレーションシップといった重要な視覚要素をハイライトするメトリクスを含む。
論文 参考訳(メタデータ) (2025-05-21T17:01:08Z) - Multi-Faceted Multimodal Monosemanticity [42.64636740703632]
深層マルチモーダルモデルから抽出した解釈可能なモノセマンティックな特徴を解析するために,データ駆動型アプローチを採用する。
具体的には,大規模画像とテキストのペアで学習した視覚言語表現モデルであるCLIPについて検討する。
本稿では,CLIPから学んだ特徴を抽出・解析する多モード解釈可能性ツールと尺度について述べる。
論文 参考訳(メタデータ) (2025-02-16T14:51:07Z) - Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment [6.614005142754584]
ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。
USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
論文 参考訳(メタデータ) (2025-02-06T02:06:16Z) - Seeing Syntax: Uncovering Syntactic Learning Limitations in Vision-Language Models [18.87130615326443]
視覚言語モデル(VLM)は、画像キャプションとテキスト・ツー・イメージ生成の基礎モデルとして機能する。
近年の研究では、VLMテキストエンコーダ(特に構成性や意味理解など)の制限が強調されている。
論文 参考訳(メタデータ) (2024-12-11T05:37:04Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。