論文の概要: A Closer Look at the Robustness of Contrastive Language-Image
Pre-Training (CLIP)
- arxiv url: http://arxiv.org/abs/2402.07410v1
- Date: Mon, 12 Feb 2024 05:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:29:37.950786
- Title: A Closer Look at the Robustness of Contrastive Language-Image
Pre-Training (CLIP)
- Title(参考訳): コントラスト型言語イメージ事前学習(clip)のロバスト性について
- Authors: Weijie Tu, Weijian Deng, Tom Gedeon
- Abstract要約: 本研究では,コントラスト言語画像事前学習(CLIP)モデルの安全性について検討した。
視覚因子の変動に対するレジリエンス、不確実性推定の校正、異常な入力を検出する能力の3つの重要な特性に焦点を当てている。
10の視覚的要因(形状やパターンなど)、5種類のアウト・オブ・ディストリビューション・データ、異なるシフト型を持つ8つの自然かつ困難なテスト条件について検討する。
- 参考スコア(独自算出の注目度): 12.5294671061385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) models have demonstrated
remarkable generalization capabilities across multiple challenging distribution
shifts. However, there is still much to be explored in terms of their
robustness to the variations of specific visual factors. In real-world
applications, reliable and safe systems must consider other safety objectives
beyond classification accuracy, such as predictive uncertainty. Yet, the
effectiveness of CLIP models on such safety-related features is less-explored.
Driven by the above, this work comprehensively investigates the safety
objectives of CLIP models, specifically focusing on three key properties:
resilience to visual factor variations, calibrated uncertainty estimations, and
the ability to detect anomalous inputs. To this end, we study 83 CLIP models
and 127 ImageNet classifiers. They are diverse in architecture, (pre)training
distribution and training strategies. We consider 10 visual factors (e.g.,
shape and pattern), 5 types of out-of-distribution data, and 8 natural and
challenging test conditions with different shift types, such as texture, style,
and perturbation shifts. Our study has unveiled several previously unknown
insights into CLIP models. For instance, they are not consistently more
calibrated than other ImageNet models, which contradicts existing findings.
Additionally, our analysis underscores the significance of training source
design by showcasing its profound influence on the three safety-related
properties. We believe our comprehensive study can shed light on and help guide
the development of more robust and reliable CLIP models.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)モデルは、複数の困難分散シフトにまたがる顕著な一般化機能を示している。
しかし、特定の視覚要因の変動に対するロバスト性については、まだまだ検討すべき点がたくさんある。
現実世界のアプリケーションでは、信頼性と安全性のあるシステムは、予測の不確実性など、分類精度以外の他の安全目標を考慮しなければならない。
しかし,これらの安全関連機能に対するCLIPモデルの有効性は低い。
本研究は,CLIPモデルの安全性を包括的に調査し,視覚因子の変動に対するレジリエンス,不確実性評価の校正,異常な入力を検出する能力の3つの重要な特性に着目した。
この目的のために、83のクリップモデルと127のイメージネット分類器を調査した。
それらはアーキテクチャ、(事前)分散とトレーニング戦略に多様です。
10種類の視覚因子(例えば、形状とパターン)、5種類の分散データ、テクスチャ、スタイル、摂動シフトなど、異なるシフトタイプを持つ8つの自然で挑戦的なテスト条件について検討した。
私たちの研究は、CLIPモデルに関するこれまで未知の知見をいくつか明らかにした。
例えば、既存の発見と矛盾する他のImageNetモデルよりも常に校正されているわけではない。
また,本分析は,安全に関する3つの特性に深く影響することを示すことにより,トレーニングソース設計の意義を裏付けるものである。
私たちの包括的な研究は、より堅牢で信頼性の高いCLIPモデルの開発を導いてくれると信じています。
関連論文リスト
- Toward a Holistic Evaluation of Robustness in CLIP Models [11.148206692373144]
対照的な言語-画像事前学習(CLIP)モデルは、ゼロショット分類において有意な可能性を示している。
この作業は、いくつかの新しい視点を導入することで、より包括的なCLIPの評価を提供することを目的としている。
それぞれの側面において、モデルアーキテクチャ、トレーニング配布、トレーニングセットサイズ、微調整、コントラスト損失、テストタイムプロンプトの6つの要因がCLIPモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2024-10-02T13:26:17Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations [19.800907485589402]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。
微調整CLIPのための軽量表現校正法を提案する。
論文 参考訳(メタデータ) (2024-03-12T01:47:17Z) - Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。
入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。
複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T02:59:10Z) - Uncertainty-guided Boundary Learning for Imbalanced Social Event
Detection [64.4350027428928]
本研究では,不均衡なイベント検出タスクのための不確実性誘導型クラス不均衡学習フレームワークを提案する。
我々のモデルは、ほとんど全てのクラス、特に不確実なクラスにおいて、社会イベントの表現と分類タスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-10-30T03:32:04Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Harnessing Perceptual Adversarial Patches for Crowd Counting [92.79051296850405]
群衆のカウントは、物理的な世界の敵の例に弱い。
本稿では,モデル間での知覚的特徴の共有を学習するためのPAP(Perceptual Adrial Patch)生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:51:39Z) - Evaluating CLIP: Towards Characterization of Broader Capabilities and
Downstream Implications [8.15254368157658]
私たちはCLIPを分析し、そのようなモデルがもたらす課題をいくつか強調します。
CLIPは、従来のコンピュータビジョンシステムに見られるバイアスを継承できる。
これらの結果は、成長する仕事の体に「ベター」モデルの概念を変えることを要求する証拠となる。
論文 参考訳(メタデータ) (2021-08-05T19:05:57Z) - Learning perturbation sets for robust machine learning [97.6757418136662]
我々は、潜在空間の制約領域上に設定された摂動を定義する条件生成器を用いる。
学習した摂動集合の質を定量的かつ質的に測定する。
我々は、学習した摂動集合を利用して、敵画像の破損や逆光の変動に対して経験的かつ確実に堅牢なモデルを訓練する。
論文 参考訳(メタデータ) (2020-07-16T16:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。