論文の概要: Conceptualizing Embeddings: Sparse Disentanglement for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.22679v1
- Date: Thu, 21 May 2026 16:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.344255
- Title: Conceptualizing Embeddings: Sparse Disentanglement for Vision-Language Models
- Title(参考訳): 埋め込みの概念化:視覚言語モデルのためのスパースディスタングル
- Authors: Piotr Kubaty, Patryk Marszałek, Łukasz Struski, Adam Wróbel, Jacek Tabor, Marek Śmieja,
- Abstract要約: CEDARは, 次元を増大させることなく, 予め訓練した埋め込みの組成構造を明らかにする手法である。
CLIPのようなアーキテクチャでは、個々の座標はテキストの概念で解釈できるが、BLIPのような生成モデルでは自然言語記述にデコードできる。
この結果から,視覚言語表現における明らかな絡み合いは,適切な基底変化によって解決できることが示唆された。
- 参考スコア(独自算出の注目度): 8.017254509163473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models learn powerful multimodal embeddings, yet their internal semantics remain opaque. While sparse autoencoders (SAEs) can extract interpretable features, they rely on expanding the representation dimension, which compromises the original geometry and introduces redundancy. We introduce CEDAR (Conceptual Embedding Disentanglement via Adaptive Rotation), a post-hoc method that reveals the compositional structure of pretrained embeddings without increasing dimensionality. By learning an invertible transformation with a top-$k$ sparsity bottleneck, CEDAR concentrates semantic information into axis-aligned disentangled coordinates. In CLIP-like architecture, individual coordinates can be interpreted with textual concepts, while for generative models such as BLIP, they can be decoded into natural language descriptions. Experiments demonstrate that CEDAR achieves a competitive reconstruction-sparsity trade-off while producing explanations that are more interpretable and better aligned with human perception. Our results suggest that the apparent entanglement in vision-language representations can be resolved through a suitable change of basis, eliminating the need for overcomplete expansions.
- Abstract(参考訳): 視覚言語モデルは強力なマルチモーダル埋め込みを学習するが、内部のセマンティクスは不透明である。
スパースオートエンコーダ(SAE)は解釈可能な特徴を抽出できるが、それらは表現次元の拡大に依存し、元の幾何学を損なうとともに冗長性を導入する。
本稿では,CEDAR (Conceptual Embedding Disentanglement via Adaptive Rotation) を導入する。
CEDARは、高額なスパシティボトルネックを持つ可逆変換を学習することにより、セマンティック情報を軸整合不整合座標に集約する。
CLIPのようなアーキテクチャでは、個々の座標はテキストの概念で解釈できるが、BLIPのような生成モデルでは自然言語記述にデコードできる。
実験により、CEDARは、より解釈可能で、人間の知覚に整合した説明をしながら、競争力のある再構築と疎結合のトレードオフを達成することが示された。
この結果から,視覚言語表現の明らかな絡み合いは,適切な基底変化によって解決できることが示唆され,オーバーコンプリートの拡張の必要性が排除された。
関連論文リスト
- LaCoVL-FER: Landmark-Guided Contrastive Learning Network with Vision-Language Enhancement for Facial Expression Recognition [51.70817823155725]
顔表情認識のための視覚言語強化型ランドマーク誘導型コントラスト学習ネットワーク(FER)を提案する。
LaCoVL-FERは、顔のランドマークと視覚言語モデルからのセマンティックな事前情報を統合する。
実験により、LaCoVL-FERは3つの代表的な実世界のFERデータセット上で最先端のメソッドより優れていることが示された。
論文 参考訳(メタデータ) (2026-05-19T13:15:41Z) - Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering [57.38215918201251]
本稿では,不完全なマルチビュークラスタリングのためのハイパーボリック拡張表現学習フレームワークであるHERLを提案する。
ポアンカレボール内で操作すると、HERLは表現学習を強化するために構造を意識した潜在空間を構築する。
HERLは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-04-18T10:50:46Z) - Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images [81.94999489820974]
UniSplat (UniSplat) は、未提示のマルチビュー画像から3D表現を学習するためのフィードフォワードフレームワークである。
エンコーダにおける幾何誘導を強化するデュアルマスキング戦略を導入する。
第2に,外見のセマンティックな矛盾を解消する粗大なガウス的スプレイティング戦略を開発する。
第3に、予測された3次元点と意味マップを画像平面に相互に関連付ける、ポーズ条件の補正機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T10:36:18Z) - FF3R: Feedforward Feature 3D Reconstruction from Unconstrained views [34.14517479047999]
本稿では,制約のないマルチビュー画像シーケンスから幾何学的および意味論的推論を統一する,完全なアノテーションのないフィードフォワードフレームワークであるFF3Rを紹介する。
従来の方法とは異なり、FF3Rはカメラのポーズや深度マップ、セマンティックラベルを必要としない。
i) 意味的文脈で意味的文脈で幾何学的トークンを豊かにするToken-wise Fusion Moduleと(ii) 局所コヒーレンスのための意味的認識ボクセル化とグローバル一貫性のための幾何学的特徴ワープを組み合わせたセマンティック・ジオメトリ相互ブースティング機構である。
論文 参考訳(メタデータ) (2026-04-10T19:45:24Z) - From Weights to Concepts: Data-Free Interpretability of CLIP via Singular Vector Decomposition [33.4228178732749]
SITHは、CLIPのビジョントランスフォーマーを重み空間で解析する、完全にデータフリーで、トレーニング不要なフレームワークである。
各アテンションヘッドに対して、その値出力行列を特異ベクトルに分解し、Compoを介して各行列を解釈する。
SITHは, 整合性, 忠実な頭蓋内説明を与え, 再現性, 解釈可能性実験により検証した。
論文 参考訳(メタデータ) (2026-03-25T17:59:57Z) - VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set [80.50996301430108]
視覚言語表現のアライメントは、強いマルチモーダル推論能力を持つ現在のビジョン言語モデルを実現する。
視覚言語表現をその隠れアクティベーションにエンコードするスパースオートエンコーダVL-SAEを提案する。
解釈において、視覚と言語表現のアライメントは、意味論と概念を比較することで理解することができる。
論文 参考訳(メタデータ) (2025-10-24T10:29:31Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - Interpreting the linear structure of vision-language model embedding spaces [12.846590038965774]
我々は、4つの視覚言語モデルの埋め込み空間上でスパースオートエンコーダ(SAE)を訓練・リリースする。
学習方向の疎線形結合としてのSAEs近似モデル埋め込み、あるいは「概念」
異なる種や異なるデータダイエットでSAEをリトレーニングすることは、2つの発見につながる。SAEによって得られた稀で特異な概念は、劇的に変化するが、一般的に活性化される概念は、実行中に著しく安定していることも示している。
論文 参考訳(メタデータ) (2025-04-16T01:40:06Z) - A Geometric Notion of Causal Probing [85.49839090913515]
線形部分空間仮説は、言語モデルの表現空間において、動詞数のような概念に関するすべての情報が線形部分空間に符号化されていることを述べる。
理想線型概念部分空間を特徴づける内在的基準のセットを与える。
2つの言語モデルにまたがる少なくとも1つの概念に対して、この概念のサブスペースは、生成された単語の概念値を精度良く操作することができる。
論文 参考訳(メタデータ) (2023-07-27T17:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。