論文の概要: Generalization to translation shifts: a study in architectures and
augmentations
- arxiv url: http://arxiv.org/abs/2207.02349v1
- Date: Tue, 5 Jul 2022 22:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 03:34:43.775980
- Title: Generalization to translation shifts: a study in architectures and
augmentations
- Title(参考訳): 翻訳シフトの一般化:アーキテクチャと拡張に関する研究
- Authors: Suriya Gunasekar
- Abstract要約: データ拡張がない場合、畳み込みネットワークを含む全てのアーキテクチャは、翻訳されたテスト分布で評価すると性能が低下する。
最小4ドル(約4万4000円)のランダムな作物でも、テストデータから最大1/4ドル(約1万4000円)のイメージサイズ(約1万4000円)までの性能が向上します。
非畳み込みアーキテクチャでは、絶対精度はまだ低いが、大きな変換シフトに対するロバスト性は劇的に改善されている。
- 参考スコア(独自算出の注目度): 7.419186462178838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide a detailed evaluation of various image classification
architectures (convolutional, vision transformer, and fully connected MLP
networks) and data augmentation techniques towards generalization to large
spacial translation shifts. We make the following observations: (a) In the
absence of data augmentation, all architectures, including convolutional
networks suffer degradation in performance when evaluated on translated test
distributions. Understandably, both the in-distribution accuracy as well as
degradation to shifts is significantly worse for non-convolutional
architectures. (b) Across all architectures, even a minimal augmentation of $4$
pixel random crop improves the robustness of performance to much larger
magnitude shifts of up to $1/4$ of image size ($8$-$16$ pixels) in the test
data -- suggesting a form of meta generalization from augmentation. For
non-convolutional architectures, while the absolute accuracy is still low, we
see dramatic improvements in robustness to large translation shifts. (c) With
sufficiently advanced augmentation ($4$ pixel
crop+RandAugmentation+Erasing+MixUp) pipeline all architectures can be trained
to have competitive performance, both in terms of in-distribution accuracy as
well as generalization to large translation shifts.
- Abstract(参考訳): 本稿では,様々な画像分類アーキテクチャ(畳み込み,視覚トランスフォーマー,完全接続mlpネットワーク)の詳細な評価と,大きな空間的変換シフトへの一般化に向けたデータ拡張技術を提案する。
以下の観察を行う。
(a)データ拡張がない場合、畳み込みネットワークを含む全てのアーキテクチャは、翻訳されたテスト分布を評価すると性能が低下する。
当然のことながら、分散の正確さとシフトの劣化は、非畳み込みアーキテクチャでは著しく悪化する。
(b)すべてのアーキテクチャにおいて、最小4ドル(約4万4000円)のランダムなクロップの増量でさえ、テストデータにおける最大1/4ドル(約1万2000円)のイメージサイズ(約1万7000円)というはるかに大きなスケールシフトまでのパフォーマンスの堅牢性を改善する。
非畳み込みアーキテクチャでは、絶対精度はまだ低いが、大きな変換シフトに対する堅牢性の劇的な改善が見られる。
(c) 十分な高度な拡張(4$ピクチャー+RandAugmentation+Erasing+MixUp)パイプラインにより、すべてのアーキテクチャは、分配精度と大規模な翻訳シフトへの一般化の両方の観点から、競争性能を持つように訓練することができる。
関連論文リスト
- Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - On the Power of Convolution Augmented Transformer [30.46405043231576]
本稿では,CAT(Convolution-Augmented Transformer)によるリコール,コピー,長さ一般化タスクの利点について検討する。
Catは、注目層のK/Q/V埋め込みに畳み込みフィルタを組み込む。
コンボリューションの局所性は、注目のグローバルな見方と相乗効果を示す。
論文 参考訳(メタデータ) (2024-07-08T04:08:35Z) - Soft Augmentation for Image Classification [68.71067594724663]
本稿では,変分変換による拡張の一般化とソフト拡張を提案する。
ソフトターゲットは、より攻撃的なデータ拡張を可能にすることを示す。
また,ソフト拡張が自己教師付き分類タスクに一般化されることも示している。
論文 参考訳(メタデータ) (2022-11-09T01:04:06Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - InAugment: Improving Classifiers via Internal Augmentation [14.281619356571724]
本稿では,画像内部統計を活用した新しい拡張操作を提案する。
最先端の増補技術による改善を示す。
また,imagenetデータセット上では,resnet50 と efficientnet-b3 top-1 の精度も向上している。
論文 参考訳(メタデータ) (2021-04-08T15:37:21Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - High-Fidelity Pluralistic Image Completion with Transformers [23.563949855476608]
本稿では, トランスフォーマーによる外観先行復元とcnnによるテクスチャ補足という多元的画像補完に, 両世界のベストをもたらす。
提案手法は3つの観点で最先端の手法を大幅に上回る。
論文 参考訳(メタデータ) (2021-03-25T17:59:46Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。