論文の概要: Language-Guided Invariance Probing of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.13494v1
- Date: Mon, 17 Nov 2025 15:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.332632
- Title: Language-Guided Invariance Probing of Vision-Language Models
- Title(参考訳): 視覚言語モデルの言語ガイドによる不変性探索
- Authors: Jae Joong Lee,
- Abstract要約: 本稿では,Language-Guided Invariance Probing (LGIP)を導入し,画像テキストマッチングにおけるパラフレーズへの不変性と意味的フリップに対する感度を測定する。
EVA02-CLIPおよび大きなOpenCLIP変異体は、低パラフレーズ誘発の変動と、元のキャプションのスコアを一定に高め、好適な不変感度フロンティア上にあることを示す。
- 参考スコア(独自算出の注目度): 2.0789144738685956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent vision-language models (VLMs) such as CLIP, OpenCLIP, EVA02-CLIP and SigLIP achieve strong zero-shot performance, but it is unclear how reliably they respond to controlled linguistic perturbations. We introduce Language-Guided Invariance Probing (LGIP), a benchmark that measures (i) invariance to meaning-preserving paraphrases and (ii) sensitivity to meaning-changing semantic flips in image-text matching. Using 40k MS COCO images with five human captions each, we automatically generate paraphrases and rule-based flips that alter object category, color or count, and summarize model behavior with an invariance error, a semantic sensitivity gap and a positive-rate statistic. Across nine VLMs, EVA02-CLIP and large OpenCLIP variants lie on a favorable invariance-sensitivity frontier, combining low paraphrase-induced variance with consistently higher scores for original captions than for their flipped counterparts. In contrast, SigLIP and SigLIP2 show much larger invariance error and often prefer flipped captions to the human descriptions, especially for object and color edits. These failures are largely invisible to standard retrieval metrics, indicating that LGIP provides a model-agnostic diagnostic for the linguistic robustness of VLMs beyond conventional accuracy scores.
- Abstract(参考訳): 近年,CLIP,OpenCLIP,EVA02-CLIP,SigLIPなどの視覚言語モデル(VLM)はゼロショット性能が向上している。
LGIP(Language-Guided Invariance Probing)のベンチマークについて紹介する。
一 意味を保たない言い回し及び
(ii)画像テキストマッチングにおける意味変化セマンティックフリップに対する感度
5つのキャプションを持つ40kのMS COCO画像を用いて、オブジェクトカテゴリ、色、カウントを変化させるパラフレーズとルールベースのフリップを自動的に生成し、モデルの振る舞いを不変誤差、セマンティック感度ギャップ、ポジティブレート統計で要約する。
9つのVLM、EVA02-CLIP、および大きなOpenCLIP変異体は、低パラフレーズ誘発の分散と、元のキャプションのスコアが、フリップしたフロンティアよりも一貫して高い値とを組み合わせて、好ましい不変性を持つフロンティア上に置かれている。
対照的に、SigLIPとSigLIP2は、非常に大きな不変誤差を示し、特にオブジェクトや色編集において、人間の記述にフリップしたキャプションを好むことが多い。
これらの故障は標準的な検索基準にはほとんど見えず、LGIPは従来の精度スコアを超えるVLMの言語的堅牢性に対するモデルに依存しない診断を提供することを示している。
関連論文リスト
- Intra-Class Probabilistic Embeddings for Uncertainty Estimation in Vision-Language Models [7.5752750293638735]
コントラッシブ・ビジョン言語モデルに対するトレーニング不要・ポストホック不確実性推定手法を提案する。
我々の手法はVLM非依存であり、微調整を必要とせず、分散シフトに対する堅牢性を示し、1クラスにつき10のトレーニングイメージで効果的に機能する。
論文 参考訳(メタデータ) (2025-11-27T01:48:27Z) - Contrastive vision-language learning with paraphrasing and negation [0.018665975431697426]
コントラスト言語-画像事前学習(CLIP)は、2つのニューラルネットワークを対照的に訓練し、画像とテキストの埋め込みを共有潜在空間に整列させる。
否定的あるいは言い換え的テキスト上でCLIPを評価する結果は、否定的変化が最小の語彙的変化を根本的に意味するのに対して、パラフレーズ化は、同じ意味を持つ全く異なるテキスト表現を生成できるため、混合的なパフォーマンスを示している。
本稿では, パラフレージングと否定の両方を考慮した新たなCLIP比較損失関数を提案し, オリジナル, パラフレージング, 否定文キャプションからなるLCM生成トレーニングトリプルをCLIPライクなトレーニングモデルに適用する。
論文 参考訳(メタデータ) (2025-11-20T16:41:36Z) - On the Brittleness of CLIP Text Encoders [3.482579981426874]
本稿では,マルチメディア情報検索シナリオにおける複数の非意味的クエリ摂動の影響を体系的に分析する。
構文的摂動と意味論的摂動が最大の不安定を引き起こすのに対し、脆さは句読やケースのような自明な表面の編集に集中している。
論文 参考訳(メタデータ) (2025-11-06T10:33:55Z) - TRUST: Leveraging Text Robustness for Unsupervised Domain Adaptation [9.906359339999039]
視覚モデルの適応を導くために,言語モダリティの堅牢性を活用する新しいUDAアプローチを導入する。
視覚と言語の特徴空間を整合させるマルチモーダルなソフトコントラスト学習損失を提案する。
我々のアプローチは従来の手法よりも優れており、従来の(DomainNet)ドメインシフトと複雑な(GeoNet)ドメインシフトに新しい最先端の設定を施しています。
論文 参考訳(メタデータ) (2025-08-08T16:51:44Z) - VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [16.90061119174727]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration [60.95748658638956]
本稿では,多ラベルシナリオにおける信頼度を適切に評価することを目的としたマルチラベル信頼性タスクを提案する。
既存のシングルラベルキャリブレーション手法では、セマンティックな混乱に対処するために欠かせないカテゴリ相関を考慮できない。
本稿では,多粒度セマンティック相関を利用した動的相関学習と正規化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-09T13:26:21Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。