論文の概要: A Closer Look at the Robustness of Contrastive Language-Image
Pre-Training (CLIP)
- arxiv url: http://arxiv.org/abs/2402.07410v1
- Date: Mon, 12 Feb 2024 05:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:29:37.950786
- Title: A Closer Look at the Robustness of Contrastive Language-Image
Pre-Training (CLIP)
- Title(参考訳): コントラスト型言語イメージ事前学習(clip)のロバスト性について
- Authors: Weijie Tu, Weijian Deng, Tom Gedeon
- Abstract要約: 本研究では,コントラスト言語画像事前学習(CLIP)モデルの安全性について検討した。
視覚因子の変動に対するレジリエンス、不確実性推定の校正、異常な入力を検出する能力の3つの重要な特性に焦点を当てている。
10の視覚的要因(形状やパターンなど)、5種類のアウト・オブ・ディストリビューション・データ、異なるシフト型を持つ8つの自然かつ困難なテスト条件について検討する。
- 参考スコア(独自算出の注目度): 12.5294671061385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) models have demonstrated
remarkable generalization capabilities across multiple challenging distribution
shifts. However, there is still much to be explored in terms of their
robustness to the variations of specific visual factors. In real-world
applications, reliable and safe systems must consider other safety objectives
beyond classification accuracy, such as predictive uncertainty. Yet, the
effectiveness of CLIP models on such safety-related features is less-explored.
Driven by the above, this work comprehensively investigates the safety
objectives of CLIP models, specifically focusing on three key properties:
resilience to visual factor variations, calibrated uncertainty estimations, and
the ability to detect anomalous inputs. To this end, we study 83 CLIP models
and 127 ImageNet classifiers. They are diverse in architecture, (pre)training
distribution and training strategies. We consider 10 visual factors (e.g.,
shape and pattern), 5 types of out-of-distribution data, and 8 natural and
challenging test conditions with different shift types, such as texture, style,
and perturbation shifts. Our study has unveiled several previously unknown
insights into CLIP models. For instance, they are not consistently more
calibrated than other ImageNet models, which contradicts existing findings.
Additionally, our analysis underscores the significance of training source
design by showcasing its profound influence on the three safety-related
properties. We believe our comprehensive study can shed light on and help guide
the development of more robust and reliable CLIP models.
- Abstract(参考訳): コントラスト言語-画像事前学習(CLIP)モデルは、複数の困難分散シフトにまたがる顕著な一般化機能を示している。
しかし、特定の視覚要因の変動に対するロバスト性については、まだまだ検討すべき点がたくさんある。
現実世界のアプリケーションでは、信頼性と安全性のあるシステムは、予測の不確実性など、分類精度以外の他の安全目標を考慮しなければならない。
しかし,これらの安全関連機能に対するCLIPモデルの有効性は低い。
本研究は,CLIPモデルの安全性を包括的に調査し,視覚因子の変動に対するレジリエンス,不確実性評価の校正,異常な入力を検出する能力の3つの重要な特性に着目した。
この目的のために、83のクリップモデルと127のイメージネット分類器を調査した。
それらはアーキテクチャ、(事前)分散とトレーニング戦略に多様です。
10種類の視覚因子(例えば、形状とパターン)、5種類の分散データ、テクスチャ、スタイル、摂動シフトなど、異なるシフトタイプを持つ8つの自然で挑戦的なテスト条件について検討した。
私たちの研究は、CLIPモデルに関するこれまで未知の知見をいくつか明らかにした。
例えば、既存の発見と矛盾する他のImageNetモデルよりも常に校正されているわけではない。
また,本分析は,安全に関する3つの特性に深く影響することを示すことにより,トレーニングソース設計の意義を裏付けるものである。
私たちの包括的な研究は、より堅牢で信頼性の高いCLIPモデルの開発を導いてくれると信じています。
関連論文リスト
- Calibrating Multi-modal Representations: A Pursuit of Group Robustness
without Annotations [20.981354848227912]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。
微調整CLIPのための軽量表現校正法を提案する。
論文 参考訳(メタデータ) (2024-03-12T01:47:17Z) - An Empirical Investigation into Benchmarking Model Multiplicity for
Trustworthy Machine Learning: A Case Study on Image Classification [0.8702432681310401]
本稿では,モデル設計の様々な側面にまたがる多重性の1ストップ実験ベンチマークを提案する。
また,マルチプライシティシート(multiplicity sheets)と呼ばれるフレームワークを開発し,様々なシナリオにおけるマルチプライシティのベンチマークを行う。
モデル選択中に追加仕様を適用した後でも,マルチプライシティがディープラーニングモデルに持続することを示す。
論文 参考訳(メタデータ) (2023-11-24T22:30:38Z) - Multi-Set Inoculation: Assessing Model Robustness Across Multiple
Challenge Sets [48.94926373895036]
本稿では,入力摂動が異なるスケールの言語モデルに与える影響を研究する枠組みを提案する。
一方の摂動への曝露が他の摂動に対するモデルの性能を向上させるか、劣化させるかを検討する。
提案手法は,与えられたデータセットの精度を損なうことなく,異なる摂動に頑健にモデルを訓練することを示す。
論文 参考訳(メタデータ) (2023-11-15T02:59:10Z) - Uncertainty-guided Boundary Learning for Imbalanced Social Event
Detection [64.4350027428928]
本研究では,不均衡なイベント検出タスクのための不確実性誘導型クラス不均衡学習フレームワークを提案する。
我々のモデルは、ほとんど全てのクラス、特に不確実なクラスにおいて、社会イベントの表現と分類タスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-10-30T03:32:04Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - On the calibration of underrepresented classes in LiDAR-based semantic
segmentation [7.100396757261104]
この研究は、LiDARに基づくセマンティックセグメンテーションのためのモデルの信頼性性能のクラスワイズ評価に焦点を当てる。
3つのセマンティックセグメンテーションモデルのキャリブレーション能力と異なるアーキテクチャ概念を比較した。
クラスの予測性能とキャリブレーション品質の依存性を識別し,記述することにより,安全クリティカルなアプリケーションに対するモデル選択と改善を容易にすることを目指している。
論文 参考訳(メタデータ) (2022-10-13T07:49:24Z) - Harnessing Perceptual Adversarial Patches for Crowd Counting [92.79051296850405]
群衆のカウントは、物理的な世界の敵の例に弱い。
本稿では,モデル間での知覚的特徴の共有を学習するためのPAP(Perceptual Adrial Patch)生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:51:39Z) - Evaluating CLIP: Towards Characterization of Broader Capabilities and
Downstream Implications [8.15254368157658]
私たちはCLIPを分析し、そのようなモデルがもたらす課題をいくつか強調します。
CLIPは、従来のコンピュータビジョンシステムに見られるバイアスを継承できる。
これらの結果は、成長する仕事の体に「ベター」モデルの概念を変えることを要求する証拠となる。
論文 参考訳(メタデータ) (2021-08-05T19:05:57Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Learning perturbation sets for robust machine learning [97.6757418136662]
我々は、潜在空間の制約領域上に設定された摂動を定義する条件生成器を用いる。
学習した摂動集合の質を定量的かつ質的に測定する。
我々は、学習した摂動集合を利用して、敵画像の破損や逆光の変動に対して経験的かつ確実に堅牢なモデルを訓練する。
論文 参考訳(メタデータ) (2020-07-16T16:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。