論文の概要: Language-Guided Invariance Probing of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.13494v1
- Date: Mon, 17 Nov 2025 15:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.332632
- Title: Language-Guided Invariance Probing of Vision-Language Models
- Title(参考訳): 視覚言語モデルの言語ガイドによる不変性探索
- Authors: Jae Joong Lee,
- Abstract要約: 本稿では,Language-Guided Invariance Probing (LGIP)を導入し,画像テキストマッチングにおけるパラフレーズへの不変性と意味的フリップに対する感度を測定する。
EVA02-CLIPおよび大きなOpenCLIP変異体は、低パラフレーズ誘発の変動と、元のキャプションのスコアを一定に高め、好適な不変感度フロンティア上にあることを示す。
- 参考スコア(独自算出の注目度): 2.0789144738685956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent vision-language models (VLMs) such as CLIP, OpenCLIP, EVA02-CLIP and SigLIP achieve strong zero-shot performance, but it is unclear how reliably they respond to controlled linguistic perturbations. We introduce Language-Guided Invariance Probing (LGIP), a benchmark that measures (i) invariance to meaning-preserving paraphrases and (ii) sensitivity to meaning-changing semantic flips in image-text matching. Using 40k MS COCO images with five human captions each, we automatically generate paraphrases and rule-based flips that alter object category, color or count, and summarize model behavior with an invariance error, a semantic sensitivity gap and a positive-rate statistic. Across nine VLMs, EVA02-CLIP and large OpenCLIP variants lie on a favorable invariance-sensitivity frontier, combining low paraphrase-induced variance with consistently higher scores for original captions than for their flipped counterparts. In contrast, SigLIP and SigLIP2 show much larger invariance error and often prefer flipped captions to the human descriptions, especially for object and color edits. These failures are largely invisible to standard retrieval metrics, indicating that LGIP provides a model-agnostic diagnostic for the linguistic robustness of VLMs beyond conventional accuracy scores.
- Abstract(参考訳): 近年,CLIP,OpenCLIP,EVA02-CLIP,SigLIPなどの視覚言語モデル(VLM)はゼロショット性能が向上している。
LGIP(Language-Guided Invariance Probing)のベンチマークについて紹介する。
一 意味を保たない言い回し及び
(ii)画像テキストマッチングにおける意味変化セマンティックフリップに対する感度
5つのキャプションを持つ40kのMS COCO画像を用いて、オブジェクトカテゴリ、色、カウントを変化させるパラフレーズとルールベースのフリップを自動的に生成し、モデルの振る舞いを不変誤差、セマンティック感度ギャップ、ポジティブレート統計で要約する。
9つのVLM、EVA02-CLIP、および大きなOpenCLIP変異体は、低パラフレーズ誘発の分散と、元のキャプションのスコアが、フリップしたフロンティアよりも一貫して高い値とを組み合わせて、好ましい不変性を持つフロンティア上に置かれている。
対照的に、SigLIPとSigLIP2は、非常に大きな不変誤差を示し、特にオブジェクトや色編集において、人間の記述にフリップしたキャプションを好むことが多い。
これらの故障は標準的な検索基準にはほとんど見えず、LGIPは従来の精度スコアを超えるVLMの言語的堅牢性に対するモデルに依存しない診断を提供することを示している。
関連論文リスト
- On the Brittleness of CLIP Text Encoders [3.482579981426874]
本稿では,マルチメディア情報検索シナリオにおける複数の非意味的クエリ摂動の影響を体系的に分析する。
構文的摂動と意味論的摂動が最大の不安定を引き起こすのに対し、脆さは句読やケースのような自明な表面の編集に集中している。
論文 参考訳(メタデータ) (2025-11-06T10:33:55Z) - TRUST: Leveraging Text Robustness for Unsupervised Domain Adaptation [9.906359339999039]
視覚モデルの適応を導くために,言語モダリティの堅牢性を活用する新しいUDAアプローチを導入する。
視覚と言語の特徴空間を整合させるマルチモーダルなソフトコントラスト学習損失を提案する。
我々のアプローチは従来の手法よりも優れており、従来の(DomainNet)ドメインシフトと複雑な(GeoNet)ドメインシフトに新しい最先端の設定を施しています。
論文 参考訳(メタデータ) (2025-08-08T16:51:44Z) - VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [16.90061119174727]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。