論文の概要: Understanding Hardness of Vision-Language Compositionality from A Token-level Causal Lens
- arxiv url: http://arxiv.org/abs/2510.26302v1
- Date: Thu, 30 Oct 2025 09:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.742873
- Title: Understanding Hardness of Vision-Language Compositionality from A Token-level Causal Lens
- Title(参考訳): トークンレベルの因果レンズによる視覚・言語構成性の硬さの理解
- Authors: Ziliang Chen, Tianang Xiao, Jusheng Zhang, Yongsen Zheng, Xipeng Chen,
- Abstract要約: 対照的な言語-イメージ 事前学習は強力なクロスモーダルな一般化をもたらす。
オブジェクト、属性、関係性に対する構成的推論では、永続的に失敗する。
完全モーダル不変アライメントを実現する擬似最適テキストエンコーダの存在を示す。
- 参考スコア(独自算出の注目度): 12.946160260124378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) delivers strong cross modal generalization by aligning images and texts in a shared embedding space, yet it persistently fails at compositional reasoning over objects, attributes, and relations often behaving like a bag-of-words matcher. Prior causal accounts typically model text as a single vector, obscuring token-level structure and leaving core phenomena-such as prompt sensitivity and failures on hard negatives unexplained. We address this gap with a token-aware causal representation learning (CRL) framework grounded in a sequential, language-token SCM. Our theory extends block identifiability to tokenized text, proving that CLIP's contrastive objective can recover the modal-invariant latent variable under both sentence-level and token-level SCMs. Crucially, token granularity yields the first principled explanation of CLIP's compositional brittleness: composition nonidentifiability. We show the existence of pseudo-optimal text encoders that achieve perfect modal-invariant alignment yet are provably insensitive to SWAP, REPLACE, and ADD operations over atomic concepts, thereby failing to distinguish correct captions from hard negatives despite optimizing the same training objective as true-optimal encoders. The analysis further links language-side nonidentifiability to visual-side failures via the modality gap and shows how iterated composition operators compound hardness, motivating improved negative mining strategies.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は、画像とテキストを共有埋め込み空間に整列させることで、強力なクロスモーダルな一般化を提供するが、オブジェクト、属性、関係性に対するコンポジション的推論では、しばしばバッグ・オブ・ワードのマーカのように振る舞うことができず、永続的に失敗する。
以前の因果関係は典型的には、テキストを単一のベクトルとしてモデル化し、トークンレベルの構造を隠蔽し、素早い感度やハードネガティブの失敗などのコア現象を残す。
本稿では,トークン認識型因果表現学習(CRL)フレームワークを,逐次的,言語対応のSCMで構築することで,このギャップに対処する。
我々の理論は、トークン化テキストに対するブロック識別性を拡張し、CLIPの対照的な目的が文レベルとトークンレベルの両方のSCMの下で、モーダル不変潜在変数を復元できることを証明した。
重要なことに、トークンの粒度はCLIPの組成の脆さの第一原理的説明をもたらす。
完全モーダル不変アライメントを実現する擬似最適テキストエンコーダの存在は、原子概念上のSWAP、REPLACE、ADD操作に対して確実に不感であり、真の最適エンコーダと同じ訓練目標を最適化したにもかかわらず、正しいキャプションをハードネガティブと区別することができないことを示す。
この分析は、モダリティギャップを介して言語側の非識別性と視覚側の障害を関連付け、繰り返し合成演算子がどのように硬度を合成し、改善された負のマイニング戦略を動機付けるかを示す。
関連論文リスト
- TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models [57.32952956674526]
大規模視覚言語モデル(LVLM)に対するより回避的でステルス的なバックドア攻撃であるTokenSwapを紹介する。
固定されたターゲットコンテンツを強制するのではなく、TokenSwapはテキスト内のオブジェクト関係の理解を微妙に妨害する。
TokenSwapは、優れた回避性とステルス性を維持しながら、高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-09-29T10:19:22Z) - VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [16.90061119174727]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits [15.941209553757274]
トークン化は、言語モデルにおける最初の、そしてしばしば過小評価される計算層である。
このような推論の成功は、トークン化された入力の構造によって根本的に境界づけられていることを示す。
論文 参考訳(メタデータ) (2025-05-20T10:32:30Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - Byte BPE Tokenization as an Inverse string Homomorphism [12.885921620444272]
トークン化は文字列とトークンの間の逆準同型として作用することを示す。
これは、原言語の文字空間とトークン化された言語のトークン空間が同型であることを示唆している。
また、トークン化器から返されるあいまいなトークン化を指す固有トークン化の概念についても検討する。
論文 参考訳(メタデータ) (2024-12-04T09:38:11Z) - Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations [43.484570564890866]
既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念をプロンプトで混乱させる。
CC-Negは,228,246のイメージ,真のキャプション,それに対応する否定的なキャプションを含むデータセットである。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
論文 参考訳(メタデータ) (2024-03-29T17:33:42Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。