論文の概要: Do CLIPs Always Generalize Better than ImageNet Models?
- arxiv url: http://arxiv.org/abs/2403.11497v1
- Date: Mon, 18 Mar 2024 06:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:26:41.719795
- Title: Do CLIPs Always Generalize Better than ImageNet Models?
- Title(参考訳): CLIPはイメージネットモデルよりも常に優れているか?
- Authors: Qizhou Wang, Yong Lin, Yongqiang Chen, Ludwig Schmidt, Bo Han, Tong Zhang,
- Abstract要約: CLIPのような大規模なビジョン言語モデルは、現代の機械学習に革命をもたらした。
LAIONデータとOpenAIデータの両方でトレーニングされたCLIPは、カウンタグループに顕著なパフォーマンス低下を示します。
驚くべきことに、ImageNetでトレーニングされたシングルモーダルモデルは、CLIPよりも堅牢である。
- 参考スコア(独自算出の注目度): 45.87070442259975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision language models, such as CLIPs, have revolutionized modern machine learning. CLIPs have demonstrated great generalizability under distribution shifts, supported by an increasing body of literature. However, the evaluation datasets for CLIPs are variations primarily designed for ImageNet benchmarks, which may not fully reflect the extent to which CLIPs, e.g., pre-trained on LAION, robust to spurious correlations. To bridge the gap, we collect a real-world dataset called CounterAnimal that contains realistic spurious features found in animal photos. CounterAnimal consists of a) the common group: comprising animals on common backgrounds, and b) the counter group: including animals on unusual backgrounds. The performance drops from the common to counter groups quantify the reliance of models on spurious features (i.e., backgrounds) to predict the animals. We find that CLIPs trained on either LAION or the OpenAI data exhibit notable performance drops on the counter group. Surprisingly, we observe that single-modal models trained on ImageNet are more robust than CLIPs. We provide both theoretical and empirical explanations for why CLIPs still learn spurious features. Our findings suggest that distribution shifts remain an open problem for CLIPs, and one needs to be cautious about test setups when evaluating foundation models pre-trained on a significantly different scale and distribution.
- Abstract(参考訳): CLIPのような大規模なビジョン言語モデルは、現代の機械学習に革命をもたらした。
CLIPは、分散シフトの下で大きな一般化可能性を示しており、文献の増大に支えられている。
しかし、CLIPの評価データセットは、主にImageNetベンチマークのために設計されている。
このギャップを埋めるために、私たちはCounterAnimalという現実世界のデータセットを収集しました。
CounterAnimal (複数形 CounterAnimals)
a) 共通集団:共通の背景に動物を含む、及び
b) カウンターグループ:異常な背景に動物を含む。
パフォーマンスは一般的なものから対向的なものへと低下し、動物を予測するための刺激的な特徴(背景など)に対するモデルの依存度を定量化する。
LAIONデータまたはOpenAIデータに基づいてトレーニングされたCLIPは、カウンタグループに顕著なパフォーマンス低下を示します。
驚くべきことに、ImageNetでトレーニングされたシングルモーダルモデルは、CLIPよりも堅牢である。
ここでは,なぜCLIPがいまだに突発的な特徴を学習しているのかを理論的および実証的に説明する。
この結果から,CLIPの分散シフトは依然としてオープンな問題であり,異なるスケールと分布で事前学習した基礎モデルを評価する際には,テスト設定に注意が必要であることが示唆された。
関連論文リスト
- Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP [3.5999252362400993]
本研究では,視覚言語モデルが,属性オブジェクト対の新たな構成で画像の分類を成功させるかどうかを考察する。
その結果,OpenAI CLIP, LAION-400M, LAION-2Bなどの大規模データセットを用いてトレーニングしたCLIPは, 有効合成OoDの一般化において, オーダー・オブ・マグニチュードの改善を示すことがわかった。
本研究は,学習データと言語指導の規模と多様性が,視覚言語モデルの構成一般化能力の解放に重要な役割を果たしていることを示すものである。
論文 参考訳(メタデータ) (2024-03-27T12:59:44Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Does CLIP's Generalization Performance Mainly Stem from High Train-Test Similarity? [21.556266136890844]
CLIPのようなファンデーションモデルは、数億のサンプルでトレーニングされており、新しいタスクやインプットに懸命に一般化されている。
これらの結果から,CLIPのOOD性能を説明するには列車試験の類似性が不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-10-14T11:24:28Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Democratizing Contrastive Language-Image Pre-training: A CLIP Benchmark
of Data, Model, and Supervision [26.13829720290035]
Contrastive Language-Image Pretraining (CLIP) は、言語監督から視覚モデルを学ぶための新しいパラダイムとして登場した。
私たちはCLIPとその変異体を評価し、分析し、ベンチマークする最初の試みであるCLIP-benchmarkを提案する。
論文 参考訳(メタデータ) (2022-03-11T08:41:00Z) - The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文 参考訳(メタデータ) (2022-01-17T09:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。