論文の概要: ImageNet-Hard: The Hardest Images Remaining from a Study of the Power of
Zoom and Spatial Biases in Image Classification
- arxiv url: http://arxiv.org/abs/2304.05538v3
- Date: Sat, 1 Jul 2023 07:41:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 13:51:36.634774
- Title: ImageNet-Hard: The Hardest Images Remaining from a Study of the Power of
Zoom and Spatial Biases in Image Classification
- Title(参考訳): imagenet-hard:画像分類におけるズームのパワーと空間バイアスの研究から残る最も難しい画像
- Authors: Mohammad Reza Taesiri, Giang Nguyen, Sarra Habchi, Cor-Paul Bezemer,
Anh Nguyen
- Abstract要約: 入力画像の適切なフレーミングは、イメージネット画像の98.91%の正確な分類につながることを示す。
本稿では,モデルにズームイン操作を明示的に実行させることにより,分類精度を向上させるテスト時間拡張(TTA)手法を提案する。
- 参考スコア(独自算出の注目度): 11.114325595825804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image classifiers are information-discarding machines, by design. Yet, how
these models discard information remains mysterious. We hypothesize that one
way for image classifiers to reach high accuracy is to first zoom to the most
discriminative region in the image and then extract features from there to
predict image labels, discarding the rest of the image. Studying six popular
networks ranging from AlexNet to CLIP, we find that proper framing of the input
image can lead to the correct classification of 98.91% of ImageNet images.
Furthermore, we uncover positional biases in various datasets, especially a
strong center bias in two popular datasets: ImageNet-A and ObjectNet. Finally,
leveraging our insights into the potential of zooming, we propose a test-time
augmentation (TTA) technique that improves classification accuracy by forcing
models to explicitly perform zoom-in operations before making predictions. Our
method is more interpretable, accurate, and faster than MEMO, a
state-of-the-art (SOTA) TTA method. We introduce ImageNet-Hard, a new benchmark
that challenges SOTA classifiers including large vision-language models even
when optimal zooming is allowed.
- Abstract(参考訳): 画像分類器は設計によって情報を捨てる機械である。
しかし、これらのモデルが情報を捨てる方法はまだ謎のままだ。
画像分類器が高い精度に達するための1つの方法は、まず画像の最も識別性の高い領域にズームし、そこから特徴を抽出して画像ラベルを予測し、残りの部分を捨てることである。
alexnetからclipまで6つの人気ネットワークを調べた結果、入力画像の適切なフレーミングがimagenetイメージの98.91%の正しい分類につながることがわかった。
さらに、様々なデータセットにおける位置バイアス、特にImageNet-AとObjectNetの2つの一般的なデータセットにおける強力な中心バイアスを明らかにする。
最後に,ズーム処理の可能性に関する知見を活かし,モデルに予測を行う前にズームイン操作を明示的に行なわせることによって,分類精度を向上させるtta(test-time augmentation)手法を提案する。
我々の手法は、最先端(SOTA)TTA法であるMEMOよりも解釈可能で正確で高速である。
我々は、最適なズームが許された場合でも、大きな視覚言語モデルを含むSOTA分類器に挑戦する新しいベンチマークであるImageNet-Hardを紹介する。
関連論文リスト
- xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Robustifying Deep Vision Models Through Shape Sensitization [19.118696557797957]
そこで本研究では,ネットワークの全体像を学習するためのインセンティブを明示的に付与する,シンプルで軽量な対向拡張手法を提案する。
我々の拡張は、ランダムに決定された混合比を用いて、シャッフルパッチで、ある画像から別の画像へのエッジマップを重畳する。
この拡張により,データセットやニューラルアーキテクチャの分類精度とロバストネスが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-11-14T11:17:46Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Reconciliation of Statistical and Spatial Sparsity For Robust Image and
Image-Set Classification [27.319334479994787]
分類のための画像や画像セットデータをモデル化するために,textitJ3Sと呼ばれる新しい統計空間スパース表現を提案する。
本稿では,J3Sモデルに基づく結合スパース符号化問題の解法を提案する。
実験の結果,提案手法はFMD, UIUC, ETH-80, YTCデータベース上での競合手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-06-01T06:33:24Z) - CutPaste: Self-Supervised Learning for Anomaly Detection and
Localization [59.719925639875036]
通常のトレーニングデータのみを用いて異常検知器を構築するためのフレームワークを提案する。
まず、自己教師付き深層表現を学習し、学習した表現の上に生成的1クラス分類器を構築する。
MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。
論文 参考訳(メタデータ) (2021-04-08T19:04:55Z) - Rethinking Natural Adversarial Examples for Classification Models [43.87819913022369]
ImageNet-Aは、自然対比例の有名なデータセットです。
オブジェクト検出技術を用いたImageNet-A例の背景影響を低減して仮説を検証した。
実験により,様々な分類モデルを用いた物体検出モデルは,その分類モデルよりも精度が高かった。
論文 参考訳(メタデータ) (2021-02-23T14:46:48Z) - High-Performance Large-Scale Image Recognition Without Normalization [34.58818094675353]
バッチ正規化は、ほとんどの画像分類モデルのキーコンポーネントであるが、多くの望ましくない性質を持っている。
我々は,これらの不安定性を克服する適応的勾配クリッピング手法を開発し,より優れた正規化自由レスネットのクラスを設計する。
大規模事前トレーニング後のImageNetの微調整では,バッチ正規化よりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2021-02-11T18:23:20Z) - I Am Going MAD: Maximum Discrepancy Competition for Comparing
Classifiers Adaptively [135.7695909882746]
我々は、MAD(Maximum Discrepancy)コンペティションを命名する。
任意に大きいラベル付き画像のコーパスから小さなテストセットを適応的にサンプリングする。
結果のモデル依存画像集合に人間のラベルを付けると、競合する分類器の相対的な性能が明らかになる。
論文 参考訳(メタデータ) (2020-02-25T03:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。