論文の概要: Left-Right Symmetry Breaking in CLIP-style Vision-Language Models Trained on Synthetic Spatial-Relation Data
- arxiv url: http://arxiv.org/abs/2601.12809v1
- Date: Mon, 19 Jan 2026 08:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.802133
- Title: Left-Right Symmetry Breaking in CLIP-style Vision-Language Models Trained on Synthetic Spatial-Relation Data
- Title(参考訳): 合成空間関係データを用いたCLIP型視覚言語モデルの左右対称性の破れ
- Authors: Takaki Yamamoto, Chihiro Noguchi, Toshihiro Tanizawa,
- Abstract要約: 本稿では,トランスフォーマーを用いた視覚とテキストエンコーダにおいて,左右関係理解がどのように現れるかを調べるために,制御可能な1次元画像テキストテストベッドを提案する。
我々は、1対と2対のシーンのペア記述に基づいて、軽量なトランスフォーマーベースの視覚とテキストエンコーダを訓練する。
コントラッシブトレーニングは左右関係を学習し、レイアウトの多様性よりもラベルの多様性が、この設定における一般化の原動力であることに気付きました。
- 参考スコア(独自算出の注目度): 1.1470070927586018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial understanding remains a key challenge in vision-language models. Yet it is still unclear whether such understanding is truly acquired, and if so, through what mechanisms. We present a controllable 1D image-text testbed to probe how left-right relational understanding emerges in Transformer-based vision and text encoders trained with a CLIP-style contrastive objective. We train lightweight Transformer-based vision and text encoders end-to-end on paired descriptions of one- and two-object scenes and evaluate generalization to unseen object pairs while systematically varying label and layout diversity. We find that contrastive training learns left-right relations and that label diversity, more than layout diversity, is the primary driver of generalization in this setting. To gain the mechanistic understanding, we perform an attention decomposition and show that interactions between positional and token embeddings induce a horizontal attention gradient that breaks left-right symmetry in the encoders; ablating this contribution substantially reduces left-right discrimination. Our results provide a mechanistic insight of when and how CLIP-style models acquire relational competence.
- Abstract(参考訳): 空間的理解は、視覚言語モデルにおいて重要な課題である。
しかし、そのような理解が真に得られているかどうか、もしそうであったとしても、どのようなメカニズムで得られるのかは、いまだに不明である。
制御可能な1次元画像テキストテストベッドを提案し,CLIPスタイルのコントラスト目標を用いて学習したトランスフォーマーベースの視覚とテキストエンコーダにおいて,左右関係理解がどのように出現するかを検証した。
我々は、1対と2対のシーンのペア記述に基づいて、軽量なトランスフォーマーベースの視覚とテキストエンコーダをエンドツーエンドに訓練し、ラベルとレイアウトの多様性を体系的に変化させながら、未確認のオブジェクトペアへの一般化を評価する。
コントラッシブトレーニングは左右関係を学習し、レイアウトの多様性よりもラベルの多様性が、この設定における一般化の原動力であることに気付きました。
機械的理解を得るために、注意分解を行い、位置とトークンの埋め込みの相互作用がエンコーダの左右対称性を損なう水平の注意勾配を誘導することを示す。
この結果から,CLIPスタイルモデルがリレーショナル・コンピテンスをいつ,どのように獲得するか,という知見が得られた。
関連論文リスト
- Shrinking the Teacher: An Adaptive Teaching Paradigm for Asymmetric EEG-Vision Alignment [42.96122751802762]
視覚と脳のモダリティの関係は基本的に非対称である。
この非対称性に対処するための適応的な教育パラダイムを提案する。
本手法は,ゼロショット脳画像検索タスクにおいて,トップ1の精度を60.2%向上させる。
論文 参考訳(メタデータ) (2025-11-14T15:52:00Z) - From Bias to Balance: Exploring and Mitigating Spatial Bias in LVLMs [57.01486941224062]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて大きな成功を収めている。
画像内の異なる場所に同じキー情報を置くと、モデルがどのように反応するかに焦点を当てる。
本研究では,すべての画像トークンに同一位置埋め込みを割り当てるシンプルかつ効果的な機構であるBaPAを導入する。
論文 参考訳(メタデータ) (2025-09-26T07:07:03Z) - MutualVPR: A Mutual Learning Framework for Resolving Supervision Inconsistencies via Adaptive Clustering [30.68546160250985]
MutualVPRは教師なしビューの自己分類と記述学習を統合している。
MutualVPRは複数のデータセットでSOTA(State-of-the-art)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T11:49:18Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。