論文の概要: Cross-Modal Redundancy and the Geometry of Vision-Language Embeddings
- arxiv url: http://arxiv.org/abs/2602.06218v2
- Date: Mon, 09 Feb 2026 20:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:42.91873
- Title: Cross-Modal Redundancy and the Geometry of Vision-Language Embeddings
- Title(参考訳): クロスモーダル冗長性と視覚言語埋め込みの幾何学
- Authors: Grégoire Dhimoïla, Thomas Fel, Victor Boutin, Agustin Picard,
- Abstract要約: 視覚言語モデル(VLM)は画像とテキストを顕著な成功を収めるが、それらの共有埋め込み空間の幾何学はいまだに理解されていない。
我々は、アラインドスパースオートエンコーダ(SAE)を用いて、クロスモーダル冗長性を利用したIso-Energy Assumptionを運用する。
この帰納バイアスは、再構成を損なうことなくSAE溶液を変化させ、幾何学解析のツールとして機能する表現を与える。
- 参考スコア(独自算出の注目度): 11.831077025246664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) align images and text with remarkable success, yet the geometry of their shared embedding space remains poorly understood. To probe this geometry, we begin from the Iso-Energy Assumption, which exploits cross-modal redundancy: a concept that is truly shared should exhibit the same average energy across modalities. We operationalize this assumption with an Aligned Sparse Autoencoder (SAE) that encourages energy consistency during training while preserving reconstruction. We find that this inductive bias changes the SAE solution without harming reconstruction, giving us a representation that serves as a tool for geometric analysis. Sanity checks on controlled data with known ground truth confirm that alignment improves when Iso-Energy holds and remains neutral when it does not. Applied to foundational VLMs, our framework reveals a clear structure with practical consequences: (i) sparse bimodal atoms carry the entire cross-modal alignment signal; (ii) unimodal atoms act as modality-specific biases and fully explain the modality gap; (iii) removing unimodal atoms collapses the gap without harming performance; (iv) restricting vector arithmetic to the bimodal subspace yields in-distribution edits and improved retrieval. These findings suggest that the right inductive bias can both preserve model fidelity and render the latent geometry interpretable and actionable.
- Abstract(参考訳): 視覚言語モデル(VLM)は画像とテキストを顕著な成功を収めるが、それらの共有埋め込み空間の幾何学はいまだに理解されていない。
この幾何を探索するために、我々は、クロスモーダルな冗長性を利用するIso-Energy Assumptionから始める:真に共有される概念は、モダリティ全体にわたって同じ平均エネルギーを示すべきである。
我々は,この仮定をアラインドスパースオートエンコーダ (SAE) で運用し, 再建を保ちながら, トレーニング中のエネルギーの整合性を高める。
この帰納バイアスは、再構成を損なうことなくSAE溶液を変化させ、幾何学解析のツールとして機能する表現を与える。
正当性は、既知の基底真理で制御されたデータをチェックし、Iso-Energyが保持し中立であるときにアライメントが改善することを確認した。
基礎的なVLMに適用すると、我々のフレームワークは、実際的な結果の明確な構造を明らかにします。
(i)スパースバイモーダル原子は、クロスモーダルアライメント信号全体を運ぶ。
(ii)一元原子は、モダリティ特異的バイアスとして作用し、モダリティギャップを完全に説明する。
三 片側原子の除去は、性能を損なうことなく、ギャップを崩壊させる。
(iv) ベクトル算術をバイモーダル部分空間に制限すると、分配中の編集が得られ、検索が改善される。
これらの結果は, 正しい帰納バイアスはモデルの忠実さを保ち, 潜在幾何学を解釈可能かつ作用可能であることを示唆している。
関連論文リスト
- MirrorLA: Reflecting Feature Map for Vision Linear Attention [49.41670925034762]
リニアアテンションはトランスフォーマーの2次から線形への計算複雑性を著しく低下させるが、パフォーマンスにおけるソフトマックスに基づくアテンションの遅れは一貫して遅れる。
我々は、受動トランケーションをアクティブなリオリエンテーションに置き換える幾何学的枠組みであるMirrorLAを提案する。
MirrorLAは標準的なベンチマークで最先端のパフォーマンスを実現し、表現の忠実さを損なうことなく厳密な線形効率を実現できることを示した。
論文 参考訳(メタデータ) (2026-02-04T09:14:09Z) - Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution [3.0242762196828448]
大規模言語モデル(LLM)は、既存のパラメトリックメモリよりもコンテクスト内での競合情報を優先することが多い。
モデルが「未学習」や内部の真理の大きさを抑えるのではなく、幾何変位のメカニズムを用いていることを示す。
論文 参考訳(メタデータ) (2026-02-04T06:13:11Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [30.07172193932125]
本稿では,JAM(Joint Autoencoder Modulator)が独立に訓練された表現のアライメントを誘導することを示す。
本研究は, 共通意味論の構造に関する理論的知見と, 一般論的な一助的基礎を専門的マルチモーダルモデルに変換するための実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-07-01T21:43:50Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Robust Self-Supervised LiDAR Odometry via Representative Structure
Discovery and 3D Inherent Error Modeling [67.75095378830694]
そこで我々は,2段階のオドメトリ推定ネットワークを構築し,一連の部分領域変換を推定してエゴモーメントを求める。
本稿では,トレーニング,推論,マッピングフェーズにおける信頼できない構造の影響を軽減することを目的とする。
我々の2フレームのオードメトリーは、翻訳/回転誤差の点で、過去の芸術の状態を16%/12%上回っている。
論文 参考訳(メタデータ) (2022-02-27T12:52:27Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。