論文の概要: Enhancing Robustness of CLIP to Common Corruptions through Bimodal Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2412.02837v1
- Date: Tue, 03 Dec 2024 21:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:33.854445
- Title: Enhancing Robustness of CLIP to Common Corruptions through Bimodal Test-Time Adaptation
- Title(参考訳): バイモーダルテスト時間適応によるCLIPの破壊に対するロバスト性向上
- Authors: Sarthak Kumar Maharana, Baoming Zhang, Leonid Karlinsky, Rogerio Feris, Yunhui Guo,
- Abstract要約: ゼロショットCLIPは、テスト時間中に重度レベルが増加すると、一般的な画像劣化に対して堅牢性が欠如していることが示される。
画像の破損に対するCLIPの堅牢性を改善するために特別に設計された,バイモーダルなTTA手法であるフレームワークを提案する。
CIFAR-10C, CIFAR-100C, ImageNet-Cでは平均精度が9.7%, 5.94%, 5.12%向上した。
- 参考スコア(独自算出の注目度): 18.278043899825267
- License:
- Abstract: Although open-vocabulary classification models like Contrastive Language Image Pretraining (CLIP) have demonstrated strong zero-shot learning capabilities, their robustness to common image corruptions remains poorly understood. Through extensive experiments, we show that zero-shot CLIP lacks robustness to common image corruptions at increasing severity levels during test-time, necessitating the adaptation of CLIP to unlabeled corrupted images using test-time adaptation (TTA). However, we found that existing TTA methods have severe limitations in adapting CLIP due to their unimodal nature. To address these limitations, we propose \framework, a bimodal TTA method specially designed to improve CLIP's robustness to common image corruptions. The key insight of our approach is not only to adapt the visual encoders for better image feature extraction but also to strengthen the alignment between image and text features by promoting a stronger association between the image class prototype, computed using pseudo-labels, and the corresponding text feature. We evaluate our approach on benchmark image corruption datasets and achieve state-of-the-art results in TTA for CLIP, specifically for domains involving image corruption. Particularly, with a ViT-B/16 vision backbone, we obtain mean accuracy improvements of 9.7%, 5.94%, and 5.12% for CIFAR-10C, CIFAR-100C, and ImageNet-C, respectively.
- Abstract(参考訳): Contrastive Language Image Pretraining (CLIP)のようなオープン語彙分類モデルは、強力なゼロショット学習能力を示しているが、一般的な画像破損に対する頑健さはいまだに理解されていない。
広範にわたる実験により,0ショットCLIPは,テスト時間中に重度レベルが増加すると画像破壊に対して堅牢性が欠如していることが示され,テスト時間適応(TTA)を用いてラベル付けされていない画像へのCLIPの適応が必要となった。
しかし,既存のTTA法では,CLIPの非定型的性質のため,適用に厳しい制限があることがわかった。
このような制約に対処するために,CLIPの強靭性を改善するために特別に設計されたバイモーダルなTTA手法である‘framework’を提案する。
提案手法の主な洞察は,画像特徴抽出に視覚エンコーダを適応させるだけでなく,画像クラスプロトタイプと擬似ラベルを用いた計算,および対応するテキスト特徴との強い関連性を促進することで,画像特徴とテキスト特徴との整合性を高めることである。
画像破損データセットのベンチマークによる評価と,CLIPのTTAにおける最先端結果,特に画像破損を伴う領域に対する評価を行った。
特に、ViT-B/16ビジョンバックボーンでは、CIFAR-10C、CIFAR-100C、ImageNet-Cの各平均精度が9.7%、5.94%、および5.12%向上した。
関連論文リスト
- TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Understanding the Vulnerability of CLIP to Image Compression [26.536819387473482]
CLIPは圧縮条件下での画像品質の変化に対して脆弱であることを示す。
我々はCIFAR-10とSTL-10でこの脆弱性を広範囲に評価した。
論文 参考訳(メタデータ) (2023-11-23T14:33:53Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - Context-Aware Robust Fine-Tuning [23.027441849817922]
コントラスト言語-画像事前訓練(CLIP)モデルは、"[CLASS]"に属する画像を分類するゼロショット能力を有する
CLIPモデルの微調整は精度を向上させるが、下流タスクの堅牢性を犠牲にする。
本稿では,この問題を解決するためにコンテキスト対応ロバストファインチューニング(CAR-FT)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:07:41Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - ReCLIP: A Strong Zero-Shot Baseline for Referring Expression
Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。
ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文 参考訳(メタデータ) (2022-04-12T17:55:38Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。