論文の概要: Decomposing multimodal embedding spaces with group-sparse autoencoders
- arxiv url: http://arxiv.org/abs/2601.20028v1
- Date: Tue, 27 Jan 2026 20:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.646684
- Title: Decomposing multimodal embedding spaces with group-sparse autoencoders
- Title(参考訳): グループスパースオートエンコーダによるマルチモーダル埋め込み空間の分解
- Authors: Chiraag Kaushik, Davis Barch, Andrea Fanelli,
- Abstract要約: クロスモーダルなランダムマスキングとグループスパース正規化を用いた多モード埋め込み分解のためのSAEに基づく新しい手法を提案する。
我々は,標準的なSAEと比較して,死んだニューロンの数を減らし,特徴的意味性を改善するとともに,より多モーダルな辞書を学習することを示す。
- 参考スコア(独自算出の注目度): 4.817429789586128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Linear Representation Hypothesis asserts that the embeddings learned by neural networks can be understood as linear combinations of features corresponding to high-level concepts. Based on this ansatz, sparse autoencoders (SAEs) have recently become a popular method for decomposing embeddings into a sparse combination of linear directions, which have been shown empirically to often correspond to human-interpretable semantics. However, recent attempts to apply SAEs to multimodal embedding spaces (such as the popular CLIP embeddings for image/text data) have found that SAEs often learn "split dictionaries", where most of the learned sparse features are essentially unimodal, active only for data of a single modality. In this work, we study how to effectively adapt SAEs for the setting of multimodal embeddings while ensuring multimodal alignment. We first argue that the existence of a split dictionary decomposition on an aligned embedding space implies the existence of a non-split dictionary with improved modality alignment. Then, we propose a new SAE-based approach to multimodal embedding decomposition using cross-modal random masking and group-sparse regularization. We apply our method to popular embeddings for image/text (CLIP) and audio/text (CLAP) data and show that, compared to standard SAEs, our approach learns a more multimodal dictionary while reducing the number of dead neurons and improving feature semanticity. We finally demonstrate how this improvement in alignment of concepts between modalities can enable improvements in the interpretability and control of cross-modal tasks.
- Abstract(参考訳): 線形表現仮説(Linear Representation hypothesis)は、ニューラルネットワークによって学習された埋め込みは、高レベルの概念に対応する特徴の線形結合として理解できると主張している。
このアンザッツに基づいて、SAE(sparse autoencoder)は近年、埋め込みを線形方向のスパース結合に分解する一般的な方法となり、人間の解釈可能な意味論にしばしば対応するように実証的に示されてきた。
しかし、最近のSAEsをマルチモーダル埋め込み空間(画像/テキストデータに対する一般的なCLIP埋め込みなど)に適用しようとする試みでは、SAEsはしばしば「分割辞書」を学習している。
本研究では,マルチモーダルなアライメントを確保しつつ,マルチモーダルな埋め込みの設定にSAEを効果的に適応させる方法について検討する。
まず、アライメントされた埋め込み空間上の分割辞書分解の存在は、モダリティアライメントを改善した非分割辞書の存在を示唆する。
そこで本研究では,クロスモーダルランダムマスキングとグループスパース正規化を用いた多モード埋め込み分解のためのSAEに基づく新しい手法を提案する。
本手法は画像/テキスト(CLIP)および音声/テキスト(CLAP)データに対する一般的な埋め込みに適用し,標準的なSAEと比較して,死ニューロンの数を減らし,特徴意味性を向上させるとともに,より多モーダルな辞書を学習することを示す。
最終的に、モーダル間の概念の整合性の改善によって、モーダル間のタスクの解釈可能性や制御が向上することを示す。
関連論文リスト
- Disentangling Latent Embeddings with Sparse Linear Concept Subspaces (SLiCS) [2.7255100506777894]
CLIPのようなビジョン言語の共同埋め込みネットワークは、セマンティック情報を備えた潜在的な埋め込み空間を提供する。
本稿では,ベクトル群の疎結合,非負結合からなる線形合成モデルを推定するための教師付き辞書学習手法を提案する。
スパース線形概念部分空間(SLiCS)によって提供される不整合埋め込みにより,概念フィルタリング画像の検索が可能となることを示す。
論文 参考訳(メタデータ) (2025-08-27T23:39:42Z) - Interpreting the linear structure of vision-language model embedding spaces [12.846590038965774]
我々は、4つの視覚言語モデルの埋め込み空間上でスパースオートエンコーダ(SAE)を訓練・リリースする。
学習方向の疎線形結合としてのSAEs近似モデル埋め込み、あるいは「概念」
異なる種や異なるデータダイエットでSAEをリトレーニングすることは、2つの発見につながる。SAEによって得られた稀で特異な概念は、劇的に変化するが、一般的に活性化される概念は、実行中に著しく安定していることも示している。
論文 参考訳(メタデータ) (2025-04-16T01:40:06Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。