論文の概要: Zoom is what you need: An empirical study of the power of zoom and
spatial biases in image classification
- arxiv url: http://arxiv.org/abs/2304.05538v1
- Date: Tue, 11 Apr 2023 23:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:37:41.378995
- Title: Zoom is what you need: An empirical study of the power of zoom and
spatial biases in image classification
- Title(参考訳): ズームとは何か:画像分類におけるズームのパワーと空間バイアスの実証的研究
- Authors: Mohammad Reza Taesiri, Giang Nguyen, Sarra Habchi, Cor-Paul Bezemer,
Anh Nguyen
- Abstract要約: 我々は、AlexNetからCLIPまでの6つの人気のあるネットワークを調査し、入力画像の適切なフレーミングが、ImageNetイメージの98.91%の正確な分類につながることを発見した。
そこで本研究では,予測を行う前に,モデルにズームイン操作を明示的に実行するように強制することで,分類精度を向上させるTTA手法を提案する。
- 参考スコア(独自算出の注目度): 11.114325595825804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image classifiers are information-discarding machines, by design. Yet, how
these models discard information remains mysterious. We hypothesize that one
way for image classifiers to reach high accuracy is to first zoom to the most
discriminative region in the image and then extract features from there to
predict image labels. We study six popular networks ranging from AlexNet to
CLIP and find that proper framing of the input image can lead to the correct
classification of 98.91% of ImageNet images. Furthermore, we explore the
potential and limits of zoom transforms in image classification and uncover
positional biases in various datasets, especially a strong center bias in two
popular datasets: ImageNet-A and ObjectNet. Finally, leveraging our insights
into the potential of zoom, we propose a state-of-the-art test-time
augmentation (TTA) technique that improves classification accuracy by forcing
models to explicitly perform zoom-in operations before making predictions. Our
method is more interpretable, accurate, and faster than MEMO, a
state-of-the-art TTA method. Additionally, we propose ImageNet-Hard, a new
benchmark where zooming in alone often does not help state-of-the-art models
better label images.
- Abstract(参考訳): 画像分類器は設計によって情報を捨てる機械である。
しかし、これらのモデルが情報を捨てる方法はまだ謎のままだ。
画像分類器が高精度に達するための一つの方法は、まず画像の最も識別性の高い領域にズームし、そこから特徴を抽出して画像ラベルを予測することである。
我々は、AlexNetからCLIPまでの6つの人気のあるネットワークを調査し、入力画像の適切なフレーミングが、ImageNetイメージの98.91%の正確な分類につながることを発見した。
さらに,画像分類におけるズーム変換の可能性と限界について検討し,様々なデータセットの位置バイアス,特にimagenet-a と objectnet の2つの人気データセットにおいて強い中心バイアスを明らかにする。
最後に,zoomの可能性に関する知見を活かし,モデルに予測を行う前にズームイン操作を明示的に実行させ,分類精度を向上させるtta(state-of-the-art test-time augmentation)手法を提案する。
我々の手法は最先端のTTA手法であるMEMOよりも解釈可能で正確で高速である。
さらに,imagenet-hardを提案する。このベンチマークでは,ズームインだけでは,最先端のモデルが画像のラベル付けに役立たないことが多い。
関連論文リスト
- xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Robustifying Deep Vision Models Through Shape Sensitization [19.118696557797957]
そこで本研究では,ネットワークの全体像を学習するためのインセンティブを明示的に付与する,シンプルで軽量な対向拡張手法を提案する。
我々の拡張は、ランダムに決定された混合比を用いて、シャッフルパッチで、ある画像から別の画像へのエッジマップを重畳する。
この拡張により,データセットやニューラルアーキテクチャの分類精度とロバストネスが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-11-14T11:17:46Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Reconciliation of Statistical and Spatial Sparsity For Robust Image and
Image-Set Classification [27.319334479994787]
分類のための画像や画像セットデータをモデル化するために,textitJ3Sと呼ばれる新しい統計空間スパース表現を提案する。
本稿では,J3Sモデルに基づく結合スパース符号化問題の解法を提案する。
実験の結果,提案手法はFMD, UIUC, ETH-80, YTCデータベース上での競合手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-06-01T06:33:24Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z) - Rethinking Natural Adversarial Examples for Classification Models [43.87819913022369]
ImageNet-Aは、自然対比例の有名なデータセットです。
オブジェクト検出技術を用いたImageNet-A例の背景影響を低減して仮説を検証した。
実験により,様々な分類モデルを用いた物体検出モデルは,その分類モデルよりも精度が高かった。
論文 参考訳(メタデータ) (2021-02-23T14:46:48Z) - High-Performance Large-Scale Image Recognition Without Normalization [34.58818094675353]
バッチ正規化は、ほとんどの画像分類モデルのキーコンポーネントであるが、多くの望ましくない性質を持っている。
我々は,これらの不安定性を克服する適応的勾配クリッピング手法を開発し,より優れた正規化自由レスネットのクラスを設計する。
大規模事前トレーニング後のImageNetの微調整では,バッチ正規化よりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2021-02-11T18:23:20Z) - I Am Going MAD: Maximum Discrepancy Competition for Comparing
Classifiers Adaptively [135.7695909882746]
我々は、MAD(Maximum Discrepancy)コンペティションを命名する。
任意に大きいラベル付き画像のコーパスから小さなテストセットを適応的にサンプリングする。
結果のモデル依存画像集合に人間のラベルを付けると、競合する分類器の相対的な性能が明らかになる。
論文 参考訳(メタデータ) (2020-02-25T03:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。