論文の概要: Do CLIPs Always Generalize Better than ImageNet Models?
- arxiv url: http://arxiv.org/abs/2403.11497v1
- Date: Mon, 18 Mar 2024 06:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:26:41.719795
- Title: Do CLIPs Always Generalize Better than ImageNet Models?
- Title(参考訳): CLIPはイメージネットモデルよりも常に優れているか?
- Authors: Qizhou Wang, Yong Lin, Yongqiang Chen, Ludwig Schmidt, Bo Han, Tong Zhang,
- Abstract要約: CLIPのような大規模なビジョン言語モデルは、現代の機械学習に革命をもたらした。
LAIONデータとOpenAIデータの両方でトレーニングされたCLIPは、カウンタグループに顕著なパフォーマンス低下を示します。
驚くべきことに、ImageNetでトレーニングされたシングルモーダルモデルは、CLIPよりも堅牢である。
- 参考スコア(独自算出の注目度): 45.87070442259975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision language models, such as CLIPs, have revolutionized modern machine learning. CLIPs have demonstrated great generalizability under distribution shifts, supported by an increasing body of literature. However, the evaluation datasets for CLIPs are variations primarily designed for ImageNet benchmarks, which may not fully reflect the extent to which CLIPs, e.g., pre-trained on LAION, robust to spurious correlations. To bridge the gap, we collect a real-world dataset called CounterAnimal that contains realistic spurious features found in animal photos. CounterAnimal consists of a) the common group: comprising animals on common backgrounds, and b) the counter group: including animals on unusual backgrounds. The performance drops from the common to counter groups quantify the reliance of models on spurious features (i.e., backgrounds) to predict the animals. We find that CLIPs trained on either LAION or the OpenAI data exhibit notable performance drops on the counter group. Surprisingly, we observe that single-modal models trained on ImageNet are more robust than CLIPs. We provide both theoretical and empirical explanations for why CLIPs still learn spurious features. Our findings suggest that distribution shifts remain an open problem for CLIPs, and one needs to be cautious about test setups when evaluating foundation models pre-trained on a significantly different scale and distribution.
- Abstract(参考訳): CLIPのような大規模なビジョン言語モデルは、現代の機械学習に革命をもたらした。
CLIPは、分散シフトの下で大きな一般化可能性を示しており、文献の増大に支えられている。
しかし、CLIPの評価データセットは、主にImageNetベンチマークのために設計されている。
このギャップを埋めるために、私たちはCounterAnimalという現実世界のデータセットを収集しました。
CounterAnimal (複数形 CounterAnimals)
a) 共通集団:共通の背景に動物を含む、及び
b) カウンターグループ:異常な背景に動物を含む。
パフォーマンスは一般的なものから対向的なものへと低下し、動物を予測するための刺激的な特徴(背景など)に対するモデルの依存度を定量化する。
LAIONデータまたはOpenAIデータに基づいてトレーニングされたCLIPは、カウンタグループに顕著なパフォーマンス低下を示します。
驚くべきことに、ImageNetでトレーニングされたシングルモーダルモデルは、CLIPよりも堅牢である。
ここでは,なぜCLIPがいまだに突発的な特徴を学習しているのかを理論的および実証的に説明する。
この結果から,CLIPの分散シフトは依然としてオープンな問題であり,異なるスケールと分布で事前学習した基礎モデルを評価する際には,テスト設定に注意が必要であることが示唆された。
関連論文リスト
- Identity Inference from CLIP Models using Only Textual Data [12.497110441765274]
CLIPモデルにおけるID推論の既存の方法は、完全なPIIでモデルをクエリする必要がある。
従来のメンバーシップ推論攻撃(MIA)は、ターゲットモデルの振る舞いを模倣するためにシャドーモデルを訓練する。
テキストデータのみを用いてターゲットモデルに問い合わせる新しいID推論法である,CLIP モデルにおけるテキスト・ユニモーダル・ディテクター (TUNI) を提案する。
論文 参考訳(メタデータ) (2024-05-23T12:54:25Z) - Language Plays a Pivotal Role in the Object-Attribute Compositional Generalization of CLIP [3.5999252362400993]
本研究では,視覚言語モデルが,属性オブジェクト対の新たな構成で画像の分類を成功させるかどうかを考察する。
その結果,OpenAI CLIP, LAION-400M, LAION-2Bなどの大規模データセットを用いてトレーニングしたCLIPは, 有効合成OoDの一般化において, オーダー・オブ・マグニチュードの改善を示すことがわかった。
本研究は,学習データと言語指導の規模と多様性が,視覚言語モデルの構成一般化能力の解放に重要な役割を果たしていることを示すものである。
論文 参考訳(メタデータ) (2024-03-27T12:59:44Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Face Recognition in the age of CLIP & Billion image datasets [0.0]
種々のCLIPモデルの性能をゼロショット顔認識器として評価する。
また,データ中毒に対するCLIPモデルの堅牢性についても検討した。
論文 参考訳(メタデータ) (2023-01-18T05:34:57Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Personalizing Pre-trained Models [23.145974171912414]
上流の事前訓練されたモデルが、下流のいくつかのショット、複数ラベル、連続的な学習タスクにどのように活用できるかを検討する。
私たちのモデルであるCLIPPER(CLIP PERsonalized)では,弱い自然言語による画像表現学習モデルであるCLIPのイメージ表現を使用している。
論文 参考訳(メタデータ) (2021-06-02T22:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。