論文の概要: Performance degradation of ImageNet trained models by simple image
transformations
- arxiv url: http://arxiv.org/abs/2207.08079v1
- Date: Sun, 17 Jul 2022 05:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:20:26.100338
- Title: Performance degradation of ImageNet trained models by simple image
transformations
- Title(参考訳): 簡易画像変換によるimagenetトレーニングモデルの性能劣化
- Authors: Harsh Maheshwari
- Abstract要約: ImageNetで訓練されたPyTorchモデルは、ほとんどのコンピュータビジョンタスクで直接または初期化するために市販のモデルとして一般的に好まれる。
本稿では,これらの畳み込みモデルと変圧器モデルの代表集合を,多数の単純な画像変換の下で簡易に検証する。
10degの回転や20%のズームインのような単純な変換でさえ、ResNet152のようなモデルのトップ1の精度を1%以上削減できることがわかった。
- 参考スコア(独自算出の注目度): 0.5922488908114022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ImageNet trained PyTorch models are generally preferred as the off-the-shelf
models for direct use or for initialisation in most computer vision tasks. In
this paper, we simply test a representative set of these convolution and
transformer based models under many simple image transformations like
horizontal shifting, vertical shifting, scaling, rotation, presence of Gaussian
noise, cutout, horizontal flip and vertical flip and report the performance
drop caused by such transformations. We find that even simple transformations
like rotating the image by 10{\deg} or zooming in by 20% can reduce the top-1
accuracy of models like ResNet152 by 1%+. The code is available at
https://github.com/harshm121/imagenet-transformation-degradation.
- Abstract(参考訳): ImageNetで訓練されたPyTorchモデルは、ほとんどのコンピュータビジョンタスクで直接または初期化するために市販のモデルとして一般的に好まれる。
本稿では,これらの畳み込みおよび変圧器モデルの代表セットを,水平シフト,垂直シフト,スケーリング,回転,ガウスノイズの存在,カットアウト,水平フリップ,垂直フリップなど,多くの簡単な画像変換の下でテストし,その変換による性能低下を報告する。
10{\deg} の回転や20%のズームインといった単純な変換であっても、resnet152 のようなモデルのtop-1精度を1%以上低下させることができる。
コードはhttps://github.com/harshm121/imagenet-transformation-degradationで入手できる。
関連論文リスト
- GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting [49.32327147931905]
単一A100 GPU上で2-4のスパース画像から高品質な3Dガウス像を0.23秒で予測できるスケーラブルな大規模再構成モデルGS-LRMを提案する。
このモデルは非常に単純なトランスフォーマーベースアーキテクチャを特徴とし、入力されたイメージをパッチ化し、プリミティブなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡す。
論文 参考訳(メタデータ) (2024-04-30T16:47:46Z) - Sparse then Prune: Toward Efficient Vision Transformers [2.191505742658975]
Vision Transformerは自然言語処理におけるTransformerモデルの成功に触発されたディープラーニングモデルである。
視力変換器にスパース正規化を適用すると、精度が0.12%向上する。
スパース正規化を伴うモデルにプルーニングを適用すると、さらによい結果が得られる。
論文 参考訳(メタデータ) (2023-07-22T05:43:33Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。