論文の概要: ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy
- arxiv url: http://arxiv.org/abs/2311.09215v2
- Date: Fri, 5 Jan 2024 13:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 17:53:19.292065
- Title: ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy
- Title(参考訳): ConvNet vs Transformer, Supervised vs CLIP: イメージネットの精度を超える
- Authors: Kirill Vishniakov, Zhiqiang Shen, Zhuang Liu
- Abstract要約: 本研究では,ImageNetの精度を超えるモデル行動の詳細な比較分析を行う。
選択したモデルには、類似したImageNetの精度と計算要求があるが、他の多くの点で異なることが分かる。
このモデル特性の多様性は、従来のメトリクスによって捉えられず、より微妙な分析の必要性を強調している。
- 参考スコア(独自算出の注目度): 31.19227420387442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern computer vision offers a great variety of models to practitioners, and
selecting a model from multiple options for specific applications can be
challenging. Conventionally, competing model architectures and training
protocols are compared by their classification accuracy on ImageNet. However,
this single metric does not fully capture performance nuances critical for
specialized tasks. In this work, we conduct an in-depth comparative analysis of
model behaviors beyond ImageNet accuracy, for both ConvNet and Vision
Transformer architectures, each across supervised and CLIP training paradigms.
Although our selected models have similar ImageNet accuracies and compute
requirements, we find that they differ in many other aspects: types of
mistakes, output calibration, transferability, and feature invariance, among
others. This diversity in model characteristics, not captured by traditional
metrics, highlights the need for more nuanced analysis when choosing among
different models. Our code is available at
https://github.com/kirill-vish/Beyond-INet.
- Abstract(参考訳): 現代のコンピュータビジョンは実践者には様々なモデルを提供しており、特定のアプリケーションに対して複数のオプションからモデルを選択することは困難である。
従来、競合するモデルアーキテクチャとトレーニングプロトコルは、ImageNetの分類精度によって比較される。
しかし、この単一のメトリクスは、特別なタスクにとって重要なパフォーマンスニュアンスを完全に捉えていない。
本研究では,ConvNetアーキテクチャとVision Transformerアーキテクチャの両方を対象として,教師付きおよびCLIPトレーニングパラダイム間のモデル動作の詳細な比較分析を行う。
選択したモデルには、ImageNetの精度と計算要件が類似しているが、誤りの種類、出力キャリブレーション、転送可能性、特徴不変性など、多くの点で異なることが判明している。
このモデル特性の多様性は、従来のメトリクスでは捉えられていないが、異なるモデルを選択する際に、より微妙な分析の必要性を強調している。
私たちのコードはhttps://github.com/kirill-vish/beyond-inetで利用可能です。
関連論文リスト
- ImageNot: A contrast with ImageNet preserves model rankings [16.169858780154893]
私たちは、ImageNetのスケールに合わせて設計されたデータセットであるImageNotを紹介します。
長年にわたってImageNetのために開発された主要なモデルアーキテクチャは、ImageNotでトレーニングされ評価された時に同じランクにランク付けされた。
論文 参考訳(メタデータ) (2024-04-02T17:13:04Z) - ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object [78.58860252442045]
我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。
このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。
我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
論文 参考訳(メタデータ) (2024-03-27T17:23:39Z) - Interpreting CLIP: Insights on the Robustness to ImageNet Distribution Shifts [22.74552390076515]
種々のバックボーンと事前学習セットを持つ16の頑健なゼロショットCLIPビジョンエンコーダの表現空間を探索する。
頑健なゼロショットCLIPビジョンエンコーダにおいて、オフリー機能の存在を検知し、これらが非トランスフォーマーモデルで観測されるのはこれが初めてである。
我々は、モデルにおけるImageNetシフトのロバスト性を示すために、外部機能が存在することを発見した。
論文 参考訳(メタデータ) (2023-10-19T17:59:12Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - Revisiting Adversarial Training for ImageNet: Architectures, Training
and Generalization across Threat Models [52.86163536826919]
我々は、ViTsとConvNeXtsを比較したImageNetの敵対的トレーニングを再考する。
修正されたConvNeXt, ConvNeXt + ConvStemは、モデルパラメータの異なる範囲にまたがる最も堅牢な一般化をもたらす。
我々の ViT + ConvStem は、目に見えない脅威モデルに最高の一般化をもたらす。
論文 参考訳(メタデータ) (2023-03-03T11:53:01Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - ImageNet-X: Understanding Model Mistakes with Factor of Variation
Annotations [36.348968311668564]
我々は、ポーズ、背景、照明などの要素の16の人間のアノテーションセットであるImageNet-Xを紹介する。
本稿では,現在の認識モデル2200について検討し,モデルアーキテクチャの関数としての誤りの種類について検討する。
モデルにはImageNet-Xカテゴリ全体で一貫した障害モードがある。
論文 参考訳(メタデータ) (2022-11-03T14:56:32Z) - Identical Image Retrieval using Deep Learning [0.0]
私たちは最先端のモデルであるBigTransfer Modelを使用しています。
我々は、K-Nearest Neighborモデルで重要な特徴を抽出し、最も近い隣人を得るために訓練する。
本モデルの応用は,低推論時間でテキストクエリによって実現し難い,類似した画像を見つけることである。
論文 参考訳(メタデータ) (2022-05-10T13:34:41Z) - Do Adversarially Robust ImageNet Models Transfer Better? [102.09335596483695]
逆向きに堅牢なモデルは、トランスファーラーニングに使用する場合、標準訓練されたモデルよりもよく機能する。
私たちの結果は、ロバストさが機能表現の改善につながるという最近の仮説と一致しています。
論文 参考訳(メタデータ) (2020-07-16T17:42:40Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。