論文の概要: What Does the Caption Really Say? Counterfactual Phrase Intervention for Compositional Data Selection in Vision-Language Pretraining
- arxiv url: http://arxiv.org/abs/2605.22651v1
- Date: Thu, 21 May 2026 15:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.334917
- Title: What Does the Caption Really Say? Counterfactual Phrase Intervention for Compositional Data Selection in Vision-Language Pretraining
- Title(参考訳): 字幕とは何か?視覚・言語前訓練における合成データ選択のためのファクトファクトファクトファクチュアル・フレーズ・インターベンション
- Authors: Hyejin Go, Semi Lee, Hyesong Choi,
- Abstract要約: CLIPスタイルのコントラスト事前トレーニングは、通常、サンプルレベルのフィルタリング信号を使用してWebスケールの画像テキストペアをキュレートする。
粗いミスマッチが取り除かれたら、より厳密なグローバルフィルタリングは、保持されたキャプションによって提供される構成上の監督をもはや追跡しない。
本稿では,制御されたナンストケン置換を画像条件付きフレーズセンシティブスコアに変換するフレーズレベルキュレーションフレームワークであるCPIを用いてこの問題に対処する。
- 参考スコア(独自算出の注目度): 5.739405014622565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP-style contrastive pretraining typically curates web-scale image-text pairs using sample-level filtering signals, often based on pair-level alignment. We show that this signal saturates: once coarse mismatches are removed, stricter global filtering no longer tracks the compositional supervision provided by the retained captions. The reason is structural - a global score conflates whether a pair is broadly plausible with whether the individual object, attribute, and relation phrases inside the caption materially support the image-text match. The latter is what compositional generalization demands, yet pair-level filters are blind to it. We address this with Counterfactual Phrase Intervention (CPI), a phrase-level curation framework that converts controlled nonce-token substitutions into image-conditioned phrase-sensitivity scores. CPI uses global alignment only for coarse mismatch removal, then ranks the surviving pool by whether caption phrases measurably affect the image-text score under controlled substitution. We frame CPI as a first-order phrase-sensitivity signal rather than a grounding or identification result, and evaluate it at CC3M scale. Ranking by this signal yields a 50%-data subset that improves VL-CheckList-VG Relation by +1.91 over the full-data baseline and +1.00 over alignment-only filtering at matched budget, while improving SugarCrepe overall and preserving general transfer. CPI is loss-orthogonal: applied unchanged to NegCLIP, it further improves VL-CheckList-VG Relation by +3.84, with additional CE-CLIP gains in the main text.
- Abstract(参考訳): CLIPスタイルのコントラスト事前トレーニングは、通常、ペアレベルのアライメントに基づいて、サンプルレベルのフィルタリング信号を使用してWebスケールの画像テキストペアをキュレートする。
粗いミスマッチが取り除かれたら、より厳密なグローバルフィルタリングは、保持されたキャプションによって提供される構成上の監督をもはや追跡しない。
グローバルスコアは、ペアが、キャプション内の個々のオブジェクト、属性、および関係するフレーズが、画像とテキストのマッチングを物質的にサポートするかどうかと、広く妥当かどうかを混同する。
後者は合成一般化が要求するものであるが、ペアレベルのフィルタはそれに対して盲目である。
本稿では,制御されたナンストケン置換を画像条件付きフレーズセンシティブスコアに変換するフレーズレベルキュレーションフレームワークであるCPIを用いてこの問題に対処する。
CPIは、粗いミスマッチ除去のためにのみグローバルアライメントを使用し、その後、制御された置換の下で、キャプションフレーズが画像テキストスコアに測定可能な影響を及ぼすかどうかで生存プールをランク付けする。
我々は,CPIをグラウンドや識別結果ではなく,第1次句感度信号として捉え,CC3Mスケールで評価した。
この信号のランク付けにより、VL-CheckList-VGリレーションを全データベースラインで+1.91、一致した予算でアライメントのみのフィルタリングで+1.00改善し、SugarCrepe全体を改善し、一般的な転送を保存する50%のデータサブセットが得られる。
CPIは損失orthogonalであり、NegCLIPに不変ではなく、VL-CheckList-VGリレーションを+3.84に改善し、メインテキストにCE-CLIPゲインを追加する。
関連論文リスト
- From Global to Local: Rethinking CLIP Feature Aggregation for Person Re-Identification [20.74226476678832]
中間パッチトークンとCLIPのテキスト埋め込み空間でパラメータ化されたアンカーベクトルを整列することで、同一性表現を再構築するSAGA-ReIDを提案する。
制御された実験は、2つの定性的に異なる条件下で凝集機構を分離する。
ベンチマーク評価では、CLIP-ReIDよりも標準設定と無視設定で一貫したゲインを確認している。
論文 参考訳(メタデータ) (2026-04-24T03:37:21Z) - Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning [23.10421006625293]
CLIPのようなビジョンランゲージモデル(VLM)は否定を理解するのに苦労する。
既存の方法は、微調整のCLIPのテキストエンコーダを通じて否定的理解を洗練し、過度に適合するリスクがある。
我々はCLIPの視覚的記述の理解能力を高めるプラグイン・アンド・プレイフレームワークであるCLIPGlassesを提案する。
論文 参考訳(メタデータ) (2026-02-24T15:55:39Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - SETR: A Two-Stage Semantic-Enhanced Framework for Zero-Shot Composed Image Retrieval [4.230223288110963]
Zero-shot Composed Image Retrieval (ZS-CIR)は、トリプルトアノテーションに頼ることなく、参照画像と相対テキストが与えられたターゲット画像を取得することを目的としている。
既存のCLIPベースの手法では、(1)組合ベースの特徴融合は、意図した変更を希釈する無関係な背景の詳細を担いながら、すべての視覚的手がかりを無差別に集約し、(2)CLIP埋め込みからのグローバルなコサイン類似性は、きめ細かいセマンティックな関係を解く能力に欠ける。
論文 参考訳(メタデータ) (2025-09-30T09:41:52Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Refign: Align and Refine for Adaptation of Semantic Segmentation to
Adverse Conditions [78.71745819446176]
Refignは、ドメイン間の通信を利用する自己学習ベースのUDAメソッドへの汎用的な拡張である。
Refign は,(1) 不確実性を認識した高密度マッチングネットワークを用いて,正常条件画像と対応する悪条件画像とを整列させ,(2) 適応ラベル補正機構を用いて正常予測で悪条件予測を精査する。
このアプローチでは、追加のトレーニングパラメータや、トレーニングのみの計算オーバーヘッドの最小化は導入されず、任意の自己学習ベースのUDAメソッドを改善するためにドロップイン拡張として使用することができる。
論文 参考訳(メタデータ) (2022-07-14T11:30:38Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Detector-Free Weakly Supervised Grounding by Separation [76.65699170882036]
Wakly Supervised phrase-Grounding (WSG)は、画像中の任意のテキストフレーズをローカライズするためにデータを使用するタスクを扱う。
本稿では,事前学習した検出器を使わずにWSGを解くための検出器フリーWSG(DF-WSG)を提案する。
我々は、以前のdf-wsg sotaと比較して最大8.5%の精度向上を示す。
論文 参考訳(メタデータ) (2021-04-20T08:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。