論文の概要: Interpreting CLIP: Insights on the Robustness to ImageNet Distribution Shifts
- arxiv url: http://arxiv.org/abs/2310.13040v2
- Date: Thu, 07 Nov 2024 15:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:58.409150
- Title: Interpreting CLIP: Insights on the Robustness to ImageNet Distribution Shifts
- Title(参考訳): CLIPの解釈: ImageNetの分散シフトに対するロバスト性に関する考察
- Authors: Jonathan Crabbé, Pau Rodríguez, Vaishaal Shankar, Luca Zappella, Arno Blaas,
- Abstract要約: 種々のバックボーンと事前学習セットを持つ16の頑健なゼロショットCLIPビジョンエンコーダの表現空間を探索する。
頑健なゼロショットCLIPビジョンエンコーダにおいて、オフリー機能の存在を検知し、これらが非トランスフォーマーモデルで観測されるのはこれが初めてである。
我々は、モデルにおけるImageNetシフトのロバスト性を示すために、外部機能が存在することを発見した。
- 参考スコア(独自算出の注目度): 22.74552390076515
- License:
- Abstract: What distinguishes robust models from non-robust ones? While for ImageNet distribution shifts it has been shown that such differences in robustness can be traced back predominantly to differences in training data, so far it is not known what that translates to in terms of what the model has learned. In this work, we bridge this gap by probing the representation spaces of 16 robust zero-shot CLIP vision encoders with various backbones (ResNets and ViTs) and pretraining sets (OpenAI, LAION-400M, LAION-2B, YFCC15M, CC12M and {DataComp}), and comparing them to the representation spaces of less robust models with identical backbones, but different (pre)training sets or objectives (CLIP pretraining on ImageNet-Captions, and supervised training or finetuning on ImageNet).Through this analysis, we generate three novel insights. Firstly, we detect the presence of outlier features in robust zero-shot CLIP vision encoders, which to the best of our knowledge is the first time these are observed in non-language and non-transformer models. Secondly, we find the existence of outlier features to be an indication of ImageNet shift robustness in models, since we only find them in robust models in our analysis. Lastly, we also investigate the number of unique encoded concepts in the representation space and find zero-shot CLIP models to encode a higher number of unique concepts in their representation space. However, we do not find this to be an indicator of ImageNet shift robustness and hypothesize that it is rather related to the language supervision. Since the presence of outlier features can be detected without access to any data from shifted datasets, we believe that they could be a useful tool for practitioners to get a feeling for the distribution shift robustness of a pretrained model during deployment.
- Abstract(参考訳): ロバストモデルと非ロバストモデルとの違いは何か?
ImageNetの分散シフトについては、そのような堅牢性の違いが主にトレーニングデータの違いに遡ることができることが示されているが、これまでのところ、モデルが何を学んだかという点では、それが何を意味するのかは分かっていない。
本研究では,様々なバックボーン (ResNets と ViTs) と事前トレーニングセット (OpenAI, LAION-400M, LAION-2B, YFCC15M, CC12M, {DataComp}) を持つ16のロバストゼロショットCLIPビジョンエンコーダの表現空間を,同一のバックボーンを持つよりロバストなモデルの表現空間と比較することにより,このギャップを埋める。
この分析により,3つの新たな知見が得られた。
第一に、ロバストなゼロショットCLIPビジョンエンコーダにおける外部機能の存在を検出する。
第2に、モデルにおけるImageNetシフトの堅牢性を示すために、外部機能が存在することが分かりました。
最後に、表現空間における一意的な概念の数を調査し、その表現空間においてより多くの一意な概念を符号化するゼロショットCLIPモデルを求める。
しかし、これはImageNetシフトの堅牢性を示す指標とはなり得ず、むしろ言語の監督に関係していると仮定する。
シフトしたデータセットからデータにアクセスせずに、外部機能の存在を検出することができるので、デプロイ中に事前トレーニングされたモデルの分散シフトロバスト性に対する感覚を得るための、実践者にとって有用なツールだと考えています。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object [78.58860252442045]
我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。
このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。
我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
論文 参考訳(メタデータ) (2024-03-27T17:23:39Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy [27.75360812109922]
本研究では,ImageNetの精度を超えるモデル行動の詳細な比較分析を行う。
選択したモデルには、類似したImageNetの精度と計算要求があるが、他の多くの点で異なることが分かる。
このモデル特性の多様性は、従来のメトリクスによって捉えられず、より微妙な分析の必要性を強調している。
論文 参考訳(メタデータ) (2023-11-15T18:56:51Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - The Role of ImageNet Classes in Fr\'echet Inception Distance [33.47601032254247]
インセプション距離(Inception Distance, FID)は、画像の2つの分布間の距離を定量化する指標である。
FIDは基本的に、ImageNetクラス確率の集合間の距離である。
以上の結果から, FID改善の過度な解釈に留意し, より知覚的に均一な分布指標の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2022-03-11T15:50:06Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。