論文の概要: On the Brittleness of CLIP Text Encoders
- arxiv url: http://arxiv.org/abs/2511.04247v2
- Date: Fri, 07 Nov 2025 18:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 14:53:49.507457
- Title: On the Brittleness of CLIP Text Encoders
- Title(参考訳): CLIPテキストエンコーダの脆性について
- Authors: Allie Tran, Luca Rossetto,
- Abstract要約: 本稿では,マルチメディア情報検索シナリオにおける複数の非意味的クエリ摂動の影響を体系的に分析する。
構文的摂動と意味論的摂動が最大の不安定を引き起こすのに対し、脆さは句読やケースのような自明な表面の編集に集中している。
- 参考スコア(独自算出の注目度): 3.482579981426874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal co-embedding models, especially CLIP, have advanced the state of the art in zero-shot classification and multimedia information retrieval in recent years by aligning images and text in a shared representation space. However, such modals trained on a contrastive alignment can lack stability towards small input perturbations. Especially when dealing with manually expressed queries, minor variations in the query can cause large differences in the ranking of the best-matching results. In this paper, we present a systematic analysis of the effect of multiple classes of non-semantic query perturbations in an multimedia information retrieval scenario. We evaluate a diverse set of lexical, syntactic, and semantic perturbations across multiple CLIP variants using the TRECVID Ad-Hoc Video Search queries and the V3C1 video collection. Across models, we find that syntactic and semantic perturbations drive the largest instabilities, while brittleness is concentrated in trivial surface edits such as punctuation and case. Our results highlight robustness as a critical dimension for evaluating vision-language models beyond benchmark accuracy.
- Abstract(参考訳): マルチモーダルな共埋め込みモデル、特にCLIPは、画像とテキストを共有表現空間に整列させることで、ゼロショット分類とマルチメディア情報検索の最先端化を実現している。
しかし、コントラストアライメントで訓練されたそのようなモードは、小さな入力摂動に対する安定性を欠く可能性がある。
特に手動で表現されたクエリを扱う場合、クエリの小さなバリエーションは、ベストマッチ結果のランキングに大きな違いをもたらす可能性がある。
本稿では,マルチメディア情報検索シナリオにおける複数の非意味的クエリ摂動の影響を体系的に分析する。
我々は,TRECVID Ad-Hoc Video SearchクエリとV3C1ビデオコレクションを用いて,複数のCLIP変種にまたがる語彙,構文,意味的摂動の多様なセットを評価する。
モデル全体では、構文的摂動と意味論的摂動が最大の不安定を駆動し、脆性は句読やケースのような自明な表面の編集に集中している。
本結果は,ベンチマーク精度以上の視覚言語モデルを評価するための重要な次元として,ロバスト性を強調した。
関連論文リスト
- Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Evaluating Robustness of Vision-Language Models Under Noisy Conditions [0.0176290054713643]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて、例外的な成功を収めている。
制御摂動下での複数の最先端VLMの性能を評価するための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-15T22:31:21Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation [3.1667055223489786]
対照的な言語-画像 事前学習モデルはゼロショット分類では優れているが、複雑な多目的シナリオでは課題に直面している。
この研究は、特別なデータセットであるComCOを使用して、これらのコンテキストにおけるCLIPの制限を包括的に分析する。
テキストエンコーダは初期オブジェクトを優先し,画像エンコーダはより大きなオブジェクトを優先する。
論文 参考訳(メタデータ) (2025-02-27T07:34:42Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。