論文の概要: TokenMix: Rethinking Image Mixing for Data Augmentation in Vision
Transformers
- arxiv url: http://arxiv.org/abs/2207.08409v1
- Date: Mon, 18 Jul 2022 07:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 23:40:25.937262
- Title: TokenMix: Rethinking Image Mixing for Data Augmentation in Vision
Transformers
- Title(参考訳): tokenmix:視覚トランスフォーマーのデータ拡張のための画像混合再考
- Authors: Jihao Liu and Boxiao Liu and Hang Zhou and Hongsheng Li and Yu Liu
- Abstract要約: CutMixは、現代の畳み込みとトランスフォーマービジョンネットワークのトレーニングによく使われる、一般的な拡張テクニックである。
本稿では,視覚変換器の性能向上のために,新しいデータ拡張手法であるTokenMixを提案する。
- 参考スコア(独自算出の注目度): 36.630476419392046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CutMix is a popular augmentation technique commonly used for training modern
convolutional and transformer vision networks. It was originally designed to
encourage Convolution Neural Networks (CNNs) to focus more on an image's global
context instead of local information, which greatly improves the performance of
CNNs. However, we found it to have limited benefits for transformer-based
architectures that naturally have a global receptive field. In this paper, we
propose a novel data augmentation technique TokenMix to improve the performance
of vision transformers. TokenMix mixes two images at token level via
partitioning the mixing region into multiple separated parts. Besides, we show
that the mixed learning target in CutMix, a linear combination of a pair of the
ground truth labels, might be inaccurate and sometimes counter-intuitive. To
obtain a more suitable target, we propose to assign the target score according
to the content-based neural activation maps of the two images from a
pre-trained teacher model, which does not need to have high performance. With
plenty of experiments on various vision transformer architectures, we show that
our proposed TokenMix helps vision transformers focus on the foreground area to
infer the classes and enhances their robustness to occlusion, with consistent
performance gains. Notably, we improve DeiT-T/S/B with +1% ImageNet top-1
accuracy. Besides, TokenMix enjoys longer training, which achieves 81.2% top-1
accuracy on ImageNet with DeiT-S trained for 400 epochs. Code is available at
https://github.com/Sense-X/TokenMix.
- Abstract(参考訳): cutmixは、現代の畳み込みおよびトランスフォーマービジョンネットワークの訓練に一般的に使用される拡張技術である。
元々は、CNN(Convolution Neural Networks)がローカル情報ではなく、画像のグローバルコンテキストにもっと焦点を合わせるように設計されており、CNNのパフォーマンスを大幅に改善している。
しかし,グローバルな受容領域を持つトランスフォーマーベースのアーキテクチャには,限られたメリットがあることがわかった。
本稿では,視覚トランスフォーマーの性能を向上させるための新しいデータ拡張技術であるtokenmixを提案する。
tokenmixは、混合領域を複数の分離部分に分割することにより、トークンレベルで2つのイメージを混合する。
さらに,一対の基底真理ラベルの線形結合である cutmix の混合学習目標が不正確であり,時には直観に反することもあることを示した。
より適当な目標を得るために,事前学習した教師モデルから2つの画像の内容に基づく神経活性化マップに基づいて目標スコアを割り当てる手法を提案する。
様々な視覚変換器アーキテクチャに関する多くの実験により、提案したTokenMixは、視覚変換器が前景領域に集中してクラスを推論し、一貫した性能向上を図っている。
特に,DeiT-T/S/Bを+1% ImageNet Top-1精度で改善する。
さらに、TokenMixはより長いトレーニングを楽しみ、400エポックでトレーニングされたDeiT-SでImageNetで81.2%のトップ-1の精度を達成した。
コードはhttps://github.com/Sense-X/TokenMix.comで入手できる。
関連論文リスト
- SMMix: Self-Motivated Image Mixing for Vision Transformers [65.809376136455]
CutMixは視覚変換器(ViT)の性能と一般化能力を決定する重要な拡張戦略である
既存のCutMixの変種は、より一貫性のある混合画像やより正確な混合ラベルを生成することでこの問題に対処している。
本稿では,学習モデルによる画像とラベルの強調を動機づける,効率的かつ効果的な自己運動画像混合法を提案する。
論文 参考訳(メタデータ) (2022-12-26T00:19:39Z) - TokenMixup: Efficient Attention-guided Token-level Data Augmentation for
Transformers [8.099977107670917]
TokenMixupは効果的な注意誘導型トークンレベルのデータ拡張手法である。
TokenMixupの亜種はトークンをひとつのインスタンスに混ぜて、マルチスケールの機能拡張を可能にする。
実験の結果,CIFARおよびImageNet-1Kにおけるベースラインモデルの性能は有意に向上した。
論文 参考訳(メタデータ) (2022-10-14T06:36:31Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Convolutional Xformers for Vision [2.7188347260210466]
視覚変換器(ViT)は、特定のベンチマークにおける最先端の精度にもかかわらず、画像処理において限られた実用的利用しか見つからない。
限られた使用理由としては、畳み込みニューラルネットワーク(CNN)と比較して、より大きなトレーニングデータセットと計算リソースの必要性がある。
本稿では,これらの制約を克服するために,線形アテンション-畳み込みハイブリッドアーキテクチャーであるConvolutional X-formers for Vision (CXV)を提案する。
二次的注意をPerformer,Nystr"omformer,Linear Transformerなどの線形注意機構に置き換えてGPU使用量を削減する。
論文 参考訳(メタデータ) (2022-01-25T12:32:09Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。