論文の概要: MixPro: Data Augmentation with MaskMix and Progressive Attention
Labeling for Vision Transformer
- arxiv url: http://arxiv.org/abs/2304.12043v1
- Date: Mon, 24 Apr 2023 12:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 15:04:28.151548
- Title: MixPro: Data Augmentation with MaskMix and Progressive Attention
Labeling for Vision Transformer
- Title(参考訳): MixPro: MaskMixによるデータ拡張とビジョントランスのためのプログレッシブアテンションラベリング
- Authors: Qihao Zhao and Yangyu Huang and Wei Hu and Fan Zhang and Jun Liu
- Abstract要約: 画像とラベル空間におけるMaskMixとProgressive Attention Labeling(PAL)を提案する。
画像空間の観点から、パッチのようなグリッドマスクをベースとした2つのイメージを混合したMaskMixを設計する。
ラベル空間の観点からPALを設計し, 混合注目ラベルの注意重みを動的に重み付けするプログレッシブファクターを設計する。
最後に、MaskMixとProgressive Attention LabelingをMixProという新しいデータ拡張メソッドとして組み合わせます。
- 参考スコア(独自算出の注目度): 17.012278767127967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recently proposed data augmentation TransMix employs attention labels to
help visual transformers (ViT) achieve better robustness and performance.
However, TransMix is deficient in two aspects: 1) The image cropping method of
TransMix may not be suitable for vision transformer. 2) At the early stage of
training, the model produces unreliable attention maps. TransMix uses
unreliable attention maps to compute mixed attention labels that can affect the
model. To address the aforementioned issues, we propose MaskMix and Progressive
Attention Labeling (PAL) in image and label space, respectively. In detail,
from the perspective of image space, we design MaskMix, which mixes two images
based on a patch-like grid mask. In particular, the size of each mask patch is
adjustable and is a multiple of the image patch size, which ensures each image
patch comes from only one image and contains more global contents. From the
perspective of label space, we design PAL, which utilizes a progressive factor
to dynamically re-weight the attention weights of the mixed attention label.
Finally, we combine MaskMix and Progressive Attention Labeling as our new data
augmentation method, named MixPro. The experimental results show that our
method can improve various ViT-based models at scales on ImageNet
classification (73.8\% top-1 accuracy based on DeiT-T for 300 epochs). After
being pre-trained with MixPro on ImageNet, the ViT-based models also
demonstrate better transferability to semantic segmentation, object detection,
and instance segmentation. Furthermore, compared to TransMix, MixPro also shows
stronger robustness on several benchmarks. The code will be released at
https://github.com/fistyee/MixPro.
- Abstract(参考訳): 最近提案されたデータ拡張TransMixは、視覚変換器(ViT)の堅牢性と性能向上を支援するためにアテンションラベルを使用している。
しかし、TransMixには2つの側面がある。
1)TransMixの画像トリミング法は視覚変換器には適さない可能性がある。
2)トレーニングの初期段階では,モデルは信頼できない注意マップを生成する。
TransMixは信頼できないアテンションマップを使用して、モデルに影響を与える可能性のある混合アテンションラベルを計算する。
上記の課題に対処するため,画像空間とラベル空間におけるMaskMixとProgressive Attention Labeling(PAL)を提案する。
詳細は、画像空間の観点から、パッチのようなグリッドマスクに基づく2つの画像の混合であるMaskMixを設計する。
特に、各マスクパッチのサイズは調整可能であり、画像パッチサイズの倍である。
ラベル空間の観点からPALを設計し, 混合注目ラベルの注意重みを動的に重み付けするプログレッシブファクターを設計する。
最後に、MaskMixとProgressive Attention LabelingをMixProという新しいデータ拡張メソッドとして組み合わせます。
本手法は,画像ネット分類のスケールで様々なvitモデルを改善することができる(deit-tに基づくtop-1精度は300エポック)。
ImageNet上でMixProで事前トレーニングされた後、ViTベースのモデルはセマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションへのより良い転送可能性を示す。
さらに、transmixと比較すると、mixproはいくつかのベンチマークで強い堅牢性を示している。
コードはhttps://github.com/fistyee/mixproでリリースされる。
関連論文リスト
- SpliceMix: A Cross-scale and Semantic Blending Augmentation Strategy for
Multi-label Image Classification [46.8141860303439]
マルチラベル画像分類,すなわちSpliceMixの簡易かつ効果的な拡張戦略を提案する。
本手法の「スプライス」は,1) 混合画像は, 混合に係わる画像のセマンティクスを, 共起バイアスを緩和するためのオブジェクト欠陥を伴わずにブレンドするグリッドの形で, 縮小された画像のスプライスであり, 2) 混合画像と元のミニバッチをスプリスして, 異なるスケールの画像を同時にトレーニングに寄与するSpliceMixed mini-batchを形成する。
論文 参考訳(メタデータ) (2023-11-26T05:45:27Z) - Use the Detection Transformer as a Data Augmenter [13.15197086963704]
DeMixは、シンプルだが非常に効果的なデータ拡張技術であるCutMix上に構築されている。
CutMixは、パッチを1つのイメージから別のイメージにカット&ペーストすることで、モデルのパフォーマンスを改善し、新しいイメージを生成する。
DeMixは、事前訓練されたDETRによって、セマンティックにリッチなパッチを精巧に選択する。
論文 参考訳(メタデータ) (2023-04-10T12:50:17Z) - SMMix: Self-Motivated Image Mixing for Vision Transformers [65.809376136455]
CutMixは視覚変換器(ViT)の性能と一般化能力を決定する重要な拡張戦略である
既存のCutMixの変種は、より一貫性のある混合画像やより正確な混合ラベルを生成することでこの問題に対処している。
本稿では,学習モデルによる画像とラベルの強調を動機づける,効率的かつ効果的な自己運動画像混合法を提案する。
論文 参考訳(メタデータ) (2022-12-26T00:19:39Z) - OAMixer: Object-aware Mixing Layer for Vision Transformers [73.10651373341933]
オブジェクトラベルに基づいてパッチベースモデルのパッチ混合層を校正するOAMixerを提案する。
オブジェクト中心の表現を学習することにより、OAMixerは様々なパッチベースモデルの分類精度と背景ロバスト性を向上することを示した。
論文 参考訳(メタデータ) (2022-12-13T14:14:48Z) - MagicMix: Semantic Mixing with Diffusion Models [85.43291162563652]
セマンティック・ミキシングと呼ばれる2つの異なるセマンティクスをブレンドして新しい概念を創出することを目的とした新しいタスクについて検討する。
我々は、事前訓練されたテキスト条件拡散モデルに基づく解であるMagicMixを提案する。
本手法では,空間マスクや再訓練は必要とせず,新しい物体を高忠実に合成することができる。
論文 参考訳(メタデータ) (2022-10-28T11:07:48Z) - Patches Are All You Need? [96.88889685873106]
ビジョントランスフォーマー(ViT)モデルは、いくつかの設定でパフォーマンスを上回る可能性がある。
ViTは、イメージの小さな領域を単一の入力機能にまとめるパッチ埋め込みを使用する必要がある。
本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか?
論文 参考訳(メタデータ) (2022-01-24T16:42:56Z) - TransMix: Attend to Mix for Vision Transformers [26.775918851867246]
視覚変換器のアテンションマップに基づいてラベルを混合するTransMixを提案する。
対応する入力画像がアテンションマップによって重み付けされた場合、ラベルの信頼性が大きくなる。
TransMixは、ImageNet分類に基づいて、様々なViTベースのモデルを継続的に改善する。
論文 参考訳(メタデータ) (2021-11-18T17:59:42Z) - SnapMix: Semantically Proportional Mixing for Augmenting Fine-grained
Data [124.95585891086894]
提案はSemantically Proportional Mixing(SnapMix)と呼ばれる
クラスアクティベーションマップ(CAM)を利用して、きめ細かいデータを強化する際にラベルノイズを低減します。
本手法は既存の混合型アプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2020-12-09T03:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。