論文の概要: Configuring Data Augmentations to Reduce Variance Shift in Positional Embedding of Vision Transformers
- arxiv url: http://arxiv.org/abs/2405.14115v1
- Date: Thu, 23 May 2024 02:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:15:00.637767
- Title: Configuring Data Augmentations to Reduce Variance Shift in Positional Embedding of Vision Transformers
- Title(参考訳): 視覚変換器の位置埋め込みにおける可変シフトを低減するためのデータ拡張の構成
- Authors: Bum Jun Kim, Sang Woo Kim,
- Abstract要約: 視覚変換器(ViT)は様々な視覚タスクにおいて顕著な性能を示した。
Mixup、Cutmix、ランダム消去といったリッチなデータ拡張を使用することは、ViTのトレーニングの成功に不可欠である。
ここでは、Mixupのようなデータ拡張によって、ViTの位置埋め込みのばらつきが生じるという脆弱性を報告する。
- 参考スコア(独自算出の注目度): 7.229820415732795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have demonstrated remarkable performance in a variety of vision tasks. Despite their promising capabilities, training a ViT requires a large amount of diverse data. Several studies empirically found that using rich data augmentations, such as Mixup, Cutmix, and random erasing, is critical to the successful training of ViTs. Now, the use of rich data augmentations has become a standard practice in the current state. However, we report a vulnerability to this practice: Certain data augmentations such as Mixup cause a variance shift in the positional embedding of ViT, which has been a hidden factor that degrades the performance of ViT during the test phase. We claim that achieving a stable effect from positional embedding requires a specific condition on the image, which is often broken for the current data augmentation methods. We provide a detailed analysis of this problem as well as the correct configuration for these data augmentations to remove the side effects of variance shift. Experiments showed that adopting our guidelines improves the performance of ViTs compared with the current configuration of data augmentations.
- Abstract(参考訳): 視覚変換器(ViT)は様々な視覚タスクにおいて顕著な性能を示した。
有望な能力にもかかわらず、ViTのトレーニングには大量の多様なデータが必要である。
いくつかの研究では、Mixup、Cutmix、ランダム消去といったリッチなデータ拡張を使用することが、ViTのトレーニングの成功に重要であることが実証されている。
今や、リッチなデータ拡張の使用は、現在の状態において標準のプラクティスになっています。
しかし,本稿では,Mixupなどのデータ拡張によって,ViTの位置埋め込みのばらつきが生じるという脆弱性を報告している。
我々は、位置埋め込みによる安定した効果を達成するには、画像に特定の条件が必要であると主張している。
分散シフトの副作用を除去するために、この問題の詳細な分析と、これらのデータ拡張の正しい構成を提供する。
実験の結果、我々のガイドラインを採用することで、現在のデータ拡張構成と比較して、ViTの性能が向上することがわかった。
関連論文リスト
- TransFace: Calibrating Transformer Training for Face Recognition from a
Data-Centric Perspective [40.521854111639094]
視覚変換器(ViT)は、その本質的なデータ・ハングリーの性質により、様々な視覚タスクにおいて強力な表現能力を示す。
しかし、非常に大きなデータセットを持つ顔認識(FR)のシナリオに適用すると、予期せぬ結果が得られます。
本稿では,DPAPというパッチレベルのデータ拡張戦略とEHSMというハードサンプルマイニング戦略を併用した,TransFaceと呼ばれる優れたFRモデルを提案する。
論文 参考訳(メタデータ) (2023-08-20T02:02:16Z) - LaCViT: A Label-aware Contrastive Fine-tuning Framework for Vision
Transformers [18.76039338977432]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの一般的なモデルとして登場し、様々なタスクで最先端のパフォーマンスを実証している。
本稿では,新しいラベル対応コントラストトレーニングフレームワークであるLaCViTを紹介する。
LaCViTは3つの評価されたViTの性能をTop-1精度で最大10.78%向上させる。
論文 参考訳(メタデータ) (2023-03-31T12:38:08Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - The Principle of Diversity: Training Stronger Vision Transformers Calls
for Reducing All Levels of Redundancy [111.49944789602884]
本稿では,パッチ埋め込み,アテンションマップ,ウェイトスペースという3つのレベルにおいて,冗長性のユビキタスな存在を体系的に研究する。
各レベルにおける表現の多様性とカバレッジを促進するための対応正規化器を提案する。
論文 参考訳(メタデータ) (2022-03-12T04:48:12Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Understanding and Improving Robustness of Vision Transformers through
Patch-based Negative Augmentation [29.08732248577141]
本稿では,視覚変換器 (ViT) のレンズによる堅牢性について検討する。
変換が元のセマンティクスを大きく損なう場合でも、ViTはパッチベースの変換に驚くほど敏感であることがわかった。
パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。
論文 参考訳(メタデータ) (2021-10-15T04:53:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。