論文の概要: Seeing Through Words, Speaking Through Pixels: Deep Representational Alignment Between Vision and Language Models
- arxiv url: http://arxiv.org/abs/2509.20751v1
- Date: Thu, 25 Sep 2025 05:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.702468
- Title: Seeing Through Words, Speaking Through Pixels: Deep Representational Alignment Between Vision and Language Models
- Title(参考訳): 言葉を通して見る, ピクセルを通して話す: 視覚と言語モデル間の深い表現的アライメント
- Authors: Zoe Wanying He, Sean Trott, Meenakshi Khosla,
- Abstract要約: 両モデルタイプの中間層から後期層にアライメントピークが存在することが判明した。
画像キャプチャマッチの人間の好みは、すべての視覚言語モデルペアの埋め込み空間に反映される。
- 参考スコア(独自算出の注目度): 4.5497948012757865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies show that deep vision-only and language-only models--trained on disjoint modalities--nonetheless project their inputs into a partially aligned representational space. Yet we still lack a clear picture of where in each network this convergence emerges, what visual or linguistic cues support it, whether it captures human preferences in many-to-many image-text scenarios, and how aggregating exemplars of the same concept affects alignment. Here, we systematically investigate these questions. We find that alignment peaks in mid-to-late layers of both model types, reflecting a shift from modality-specific to conceptually shared representations. This alignment is robust to appearance-only changes but collapses when semantics are altered (e.g., object removal or word-order scrambling), highlighting that the shared code is truly semantic. Moving beyond the one-to-one image-caption paradigm, a forced-choice "Pick-a-Pic" task shows that human preferences for image-caption matches are mirrored in the embedding spaces across all vision-language model pairs. This pattern holds bidirectionally when multiple captions correspond to a single image, demonstrating that models capture fine-grained semantic distinctions akin to human judgments. Surprisingly, averaging embeddings across exemplars amplifies alignment rather than blurring detail. Together, our results demonstrate that unimodal networks converge on a shared semantic code that aligns with human judgments and strengthens with exemplar aggregation.
- Abstract(参考訳): 近年の研究では、深い視覚のみのモデルと言語のみのモデルが、不連続なモダリティに基づいて訓練されていることが示されている。
しかし、この収束がどのネットワークに現れるのか、視覚的あるいは言語的な手がかりがそれをサポートするのか、多から多までの画像テキストシナリオで人間の好みを捉えているのか、同じ概念の例の集合がアライメントにどのように影響するか、といった明確なイメージはいまだに欠けている。
本稿ではこれらの質問を体系的に調査する。
両モデルタイプの中間層から後期層へのアライメントピークは,モダリティ固有の表現から概念的に共有される表現へのシフトを反映している。
このアライメントは外観のみの変更に対して堅牢だが、セマンティクスが変更された場合(オブジェクトの削除や単語順序のスクランブルなど)に崩壊し、共有コードが本当にセマンティクスであることを強調している。
1対1のイメージキャプションパラダイムを超えて、強制選択の"Pick-a-Pic"タスクは、イメージキャプションマッチに対する人間の好みが、すべての視覚言語モデルペアの埋め込み空間に反映されていることを示している。
このパターンは、複数のキャプションが1つの画像に対応する場合に双方向に保持され、モデルが人間の判断に似た細粒度のセマンティックな区別を捉えることを示す。
驚いたことに、外見にまたがる埋め込みの平均は、細部をぼやかすのではなく、アライメントを増幅する。
この結果から,一助的ネットワークは,人間の判断と一致し,先行的な集約と整合する共有意味コードに収束することを示した。
関連論文リスト
- Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。
既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。
本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T14:27:30Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。