論文の概要: Lost in Embeddings: Information Loss in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.11986v1
- Date: Mon, 15 Sep 2025 14:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.345789
- Title: Lost in Embeddings: Information Loss in Vision-Language Models
- Title(参考訳): 埋め込みにおける損失:視覚言語モデルにおける情報損失
- Authors: Wenyan Li, Raphael Tang, Chengzu Li, Caiqi Zhang, Ivan Vulić, Anders Søgaard,
- Abstract要約: 視覚言語モデルは、しばしば事前訓練された視覚エンコーダを通して視覚入力を処理し、続いてコネクタコンポーネントを介して言語モデルの埋め込み空間に投影する。
この射影ステップによって引き起こされる潜在的な情報損失と、モデル能力に対する直接的な影響は、まだ検討されていない。
潜在表現空間を解析することにより、この損失を検証・定量化するための2つの補完的アプローチを導入する。
- 参考スコア(独自算出の注目度): 38.8742043080561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision--language models (VLMs) often process visual inputs through a pretrained vision encoder, followed by a projection into the language model's embedding space via a connector component. While crucial for modality fusion, the potential information loss induced by this projection step and its direct impact on model capabilities remain understudied. We introduce two complementary approaches to examine and quantify this loss by analyzing the latent representation space. First, we evaluate semantic information preservation by analyzing changes in k-nearest neighbor relationships between image representations, before and after projection. Second, we directly measure information loss by reconstructing visual embeddings from the projected representation, localizing loss at an image patch level. Experiments reveal that connectors substantially distort the local geometry of visual representations, with k-nearest neighbors diverging by 40--60\% post-projection, correlating with degradation in retrieval performance. The patch-level embedding reconstruction provides interpretable insights for model behavior on visually grounded question-answering tasks, finding that areas of high information loss reliably predict instances where models struggle.
- Abstract(参考訳): 視覚言語モデル(VLM)は、しばしば事前訓練された視覚エンコーダを通して視覚入力を処理し、続いてコネクタコンポーネントを介して言語モデルの埋め込み空間に投影する。
この射影ステップによって引き起こされる潜在的な情報損失と、モデル能力に対する直接的な影響は、まだ検討されていない。
潜在表現空間を解析することにより、この損失を検証・定量化するための2つの補完的アプローチを導入する。
まず、投影前後の画像表現間のk-アネレス関係の変化を解析し、意味情報保存を評価する。
第2に、投影された表現から視覚的埋め込みを再構築し、画像パッチレベルでの損失をローカライズすることで、情報損失を直接計測する。
実験の結果、コネクタは視覚表現の局所的な形状を著しく歪め、k-アネレスト近傍は40~60 %の差で変化し、検索性能の低下に関連していることがわかった。
パッチレベルの埋め込み再構成は、視覚的に根拠付けられた質問応答タスクにおけるモデル動作の解釈可能な洞察を提供し、高い情報損失の領域がモデルが苦労するインスタンスを確実に予測することを発見した。
関連論文リスト
- Generative Learning of Differentiable Object Models for Compositional Interpretation of Complex Scenes [0.20718016474717196]
この研究は、DVP(Disentangler of Visual Priors)のアーキテクチャに基づく。
DVPは、認識された物体を、形状、大きさ、配向、色見性の独立した視覚的側面に分解することで、シーンを解釈することを学ぶ。
論文 参考訳(メタデータ) (2025-06-09T20:06:42Z) - LayerFlow: Layer-wise Exploration of LLM Embeddings using Uncertainty-aware Interlinked Projections [11.252261879736102]
LayerFlowはビジュアル分析ワークスペースで、リンクされたプロジェクション設計に埋め込みを表示する。
変換、表現、解釈の不確実性を伝達する。
提案するワークスペースのユーザビリティについて,再現性およびエキスパートケーススタディを通じて紹介する。
論文 参考訳(メタデータ) (2025-04-09T12:24:58Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Mapping EEG Signals to Visual Stimuli: A Deep Learning Approach to Match
vs. Mismatch Classification [28.186129896907694]
ビデオクリップが脳波信号の興奮応答を誘導するかどうかを分類する「マッチ-vs-mismatch」深層学習モデルを提案する。
提案手法は, 未知の被写体に対して最も精度の高いモデルを実現することができることを示す。
これらの結果は、ニューラル記録に基づくビデオ再構成の開発を促進する可能性がある。
論文 参考訳(メタデータ) (2023-09-08T06:37:25Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Reconstruction-guided attention improves the robustness and shape
processing of neural networks [5.156484100374057]
オブジェクト再構成を生成する反復エンコーダデコーダネットワークを構築し,トップダウンの注目フィードバックとして利用する。
本モデルでは,様々な画像摂動に対して強い一般化性能を示す。
本研究は、再構成に基づくフィードバックのモデリングが、強力な注意機構を持つAIシステムを実現することを示す。
論文 参考訳(メタデータ) (2022-09-27T18:32:22Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。