論文の概要: On the surprising tradeoff between ImageNet accuracy and perceptual
similarity
- arxiv url: http://arxiv.org/abs/2203.04946v1
- Date: Wed, 9 Mar 2022 18:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 16:53:12.491746
- Title: On the surprising tradeoff between ImageNet accuracy and perceptual
similarity
- Title(参考訳): ImageNetの精度と知覚的類似性の間の驚くべきトレードオフについて
- Authors: Manoj Kumar, Neil Houlsby, Nal Kalchbrenner, Ekin D. Cubuk
- Abstract要約: 画像間の知覚距離は、事前訓練された深い特徴の空間で測定されるように、画像の類似性を評価するための低レベルのピクセルベースのメトリクスよりも優れています。
我々は,ResNets,EfficientNets,Vision Transformersなどの現代のネットワークのイメージネット精度と知覚スコアの驚くべき逆相関を観察する。
ImageNetの精度/知覚スコア関係について,深さ,幅,トレーニングステップ数,体重減少,ラベルの平滑化,ドロップアウトについて検討した。
- 参考スコア(独自算出の注目度): 31.417129985636873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perceptual distances between images, as measured in the space of pre-trained
deep features, have outperformed prior low-level, pixel-based metrics on
assessing image similarity. While the capabilities of older and less accurate
models such as AlexNet and VGG to capture perceptual similarity are well known,
modern and more accurate models are less studied. First, we observe a
surprising inverse correlation between ImageNet accuracy and Perceptual Scores
of modern networks such as ResNets, EfficientNets, and Vision Transformers:
that is better classifiers achieve worse Perceptual Scores. Then, we perform a
large-scale study and examine the ImageNet accuracy/Perceptual Score
relationship on varying the depth, width, number of training steps, weight
decay, label smoothing, and dropout. Higher accuracy improves Perceptual Score
up to a certain point, but we uncover a Pareto frontier between accuracies and
Perceptual Score in the mid-to-high accuracy regime. We explore this
relationship further using distortion invariance, spatial frequency
sensitivity, and alternative perceptual functions. Interestingly we discover
shallow ResNets, trained for less than 5 epochs only on ImageNet, whose
emergent Perceptual Score matches the prior best networks trained directly on
supervised human perceptual judgements.
- Abstract(参考訳): 画像間の知覚距離は、事前訓練された深い特徴の空間で測定されるように、画像の類似性を評価するための低レベルのピクセルベースのメトリクスよりも優れている。
AlexNetやVGGのような古い精度の低いモデルが知覚的類似性を捉える能力はよく知られているが、近代的モデルやより正確なモデルはあまり研究されていない。
まず,イメージネットの精度と,resnet, efficientnets, vision transformersなどの現代的なネットワークの知覚スコアとの驚くべき逆相関を観察する。
次に,画像Netの精度と知覚スコアの関係について,深さ,幅,トレーニングステップ数,体重減少,ラベルの平滑化,ドロップアウトについて検討した。
高い精度は知覚スコアをある時点まで改善するが、中~高精度体制において、確率と知覚スコアの間のパレートフロンティアを明らかにする。
我々は、歪み不変性、空間周波数感度、代替知覚関数を用いて、この関係をさらに探究する。
興味深いことに、ImageNetでトレーニングされた5時間未満の浅いResNetは、監督された人間の知覚判断に基づいてトレーニングされた以前の最高のネットワークと一致している。
関連論文リスト
- Robustifying Deep Vision Models Through Shape Sensitization [19.118696557797957]
そこで本研究では,ネットワークの全体像を学習するためのインセンティブを明示的に付与する,シンプルで軽量な対向拡張手法を提案する。
我々の拡張は、ランダムに決定された混合比を用いて、シャッフルパッチで、ある画像から別の画像へのエッジマップを重畳する。
この拡張により,データセットやニューラルアーキテクチャの分類精度とロバストネスが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-11-14T11:17:46Z) - DOMINO: Domain-aware Model Calibration in Medical Image Segmentation [51.346121016559024]
現代のディープニューラルネットワークはキャリブレーションが不十分で、信頼性と信頼性を損なう。
本稿では,クラスラベル間のセマンティック・コンフューザビリティと階層的類似性を利用したドメイン認識モデルキャリブレーション手法であるDOMINOを提案する。
その結果,DOMINOを校正したディープニューラルネットワークは,頭部画像分割における非校正モデルや最先端形態計測法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-13T15:31:52Z) - Does Robustness on ImageNet Transfer to Downstream Tasks? [9.594432031144716]
我々は、バニラスウィントランスフォーマーが、ImageNetの破損したバージョンに対して堅牢であるように訓練された畳み込みニューラルネットワークよりも堅牢性が高いことを示す。
CIFAR10分類では、ImageNetで頑健なモデルでは、完全に微調整された場合、頑健さを保たない。
論文 参考訳(メタデータ) (2022-04-08T08:55:34Z) - The Role of ImageNet Classes in Fr\'echet Inception Distance [33.47601032254247]
インセプション距離(Inception Distance, FID)は、画像の2つの分布間の距離を定量化する指標である。
FIDは基本的に、ImageNetクラス確率の集合間の距離である。
以上の結果から, FID改善の過度な解釈に留意し, より知覚的に均一な分布指標の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2022-03-11T15:50:06Z) - HHP-Net: A light Heteroscedastic neural network for Head Pose estimation
with uncertainty [2.064612766965483]
そこで,本研究では,頭部キーポイントの小さなセットから始まる,単一画像中の人物の頭部ポーズを推定する新しい手法を提案する。
私たちのモデルは実装が簡単で、芸術の状況に関してより効率的です。
論文 参考訳(メタデータ) (2021-11-02T08:55:45Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - Are Convolutional Neural Networks or Transformers more like human
vision? [9.83454308668432]
視覚タスクにおけるCNNよりも注意に基づくネットワークの方が精度が高いことを示す。
これらの結果は、人間の視覚モデルの構築だけでなく、人間の視覚的物体認識の理解にも影響を及ぼす。
論文 参考訳(メタデータ) (2021-05-15T10:33:35Z) - Why Do Better Loss Functions Lead to Less Transferable Features? [93.47297944685114]
本稿では,画像ネット上で学習した畳み込みニューラルネットワークの隠れ表現が,学習対象の選択が伝達可能性に与える影響について検討する。
我々は,多くの目的が,バニラソフトマックスのクロスエントロピーよりも画像ネットの精度を統計的に有意に向上させることを示した。
論文 参考訳(メタデータ) (2020-10-30T17:50:31Z) - Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。
本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文 参考訳(メタデータ) (2020-07-03T14:33:28Z) - Are we done with ImageNet? [86.01120671361844]
我々は、ImageNetバリデーションセットの人間のアノテーションを収集するための、より堅牢な手順を開発する。
我々は最近提案されたImageNet分類器の精度を再評価し、その精度は元のラベルで報告されたものよりもかなり小さいことがわかった。
オリジナルのImageNetラベルは、もはやこの独立に収集されたセットの最良の予測者ではなく、ビジョンモデルの評価における彼らの有用性が終わりに近づいていることを示している。
論文 参考訳(メタデータ) (2020-06-12T13:17:25Z) - Calibrating Deep Neural Networks using Focal Loss [77.92765139898906]
ミススキャリブレーション(Miscalibration)は、モデルの信頼性と正しさのミスマッチである。
焦点損失は、既に十分に校正されたモデルを学ぶことができることを示す。
ほぼすべてのケースにおいて精度を損なうことなく,最先端のキャリブレーションを達成できることを示す。
論文 参考訳(メタデータ) (2020-02-21T17:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。