論文の概要: SMMix: Self-Motivated Image Mixing for Vision Transformers
- arxiv url: http://arxiv.org/abs/2212.12977v1
- Date: Mon, 26 Dec 2022 00:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 14:43:00.183493
- Title: SMMix: Self-Motivated Image Mixing for Vision Transformers
- Title(参考訳): smmix:視覚トランスフォーマーのための自己モチベーション画像混合
- Authors: Mengzhao Chen, Mingbao Lin, ZhiHang Lin, Yuxin Zhang, Fei Chao,
Rongrong Ji
- Abstract要約: CutMixは視覚変換器(ViT)の性能と一般化能力を決定する重要な拡張戦略である
既存のCutMixの変種は、より一貫性のある混合画像やより正確な混合ラベルを生成することでこの問題に対処している。
本稿では,学習モデルによる画像とラベルの強調を動機づける,効率的かつ効果的な自己運動画像混合法を提案する。
- 参考スコア(独自算出の注目度): 65.809376136455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CutMix is a vital augmentation strategy that determines the performance and
generalization ability of vision transformers (ViTs). However, the
inconsistency between the mixed images and the corresponding labels harms its
efficacy. Existing CutMix variants tackle this problem by generating more
consistent mixed images or more precise mixed labels, but inevitably introduce
heavy training overhead or require extra information, undermining ease of use.
To this end, we propose an efficient and effective Self-Motivated image Mixing
method (SMMix), which motivates both image and label enhancement by the model
under training itself. Specifically, we propose a max-min attention region
mixing approach that enriches the attention-focused objects in the mixed
images. Then, we introduce a fine-grained label assignment technique that
co-trains the output tokens of mixed images with fine-grained supervision.
Moreover, we devise a novel feature consistency constraint to align features
from mixed and unmixed images. Due to the subtle designs of the self-motivated
paradigm, our SMMix is significant in its smaller training overhead and better
performance than other CutMix variants. In particular, SMMix improves the
accuracy of DeiT-T/S, CaiT-XXS-24/36, and PVT-T/S/M/L by more than +1% on
ImageNet-1k. The generalization capability of our method is also demonstrated
on downstream tasks and out-of-distribution datasets. Code of this project is
available at https://github.com/ChenMnZ/SMMix.
- Abstract(参考訳): CutMixは視覚変換器(ViT)の性能と一般化能力を決定する重要な拡張戦略である。
しかし、混合画像と対応するラベルとの矛盾は、その有効性を損なう。
既存のCutMixの変種は、より一貫性のある混合画像やより正確な混合ラベルを生成することでこの問題に対処するが、必然的に重いトレーニングオーバーヘッドや追加の情報を必要とし、使いやすさを損なう。
そこで本研究では,学習モデルによる画像強調とラベル強調の両方をモチベーションとする効率的かつ効果的な自己モチベーション画像混合法(smmix)を提案する。
具体的には,混合画像中の注意対象を豊かにするための最大注意領域混合手法を提案する。
そこで我々は,混合画像の出力トークンをきめ細かい監督でコトレーニングする,きめ細かいラベル割り当て手法を提案する。
さらに,混合画像と非混合画像から特徴を整合させるために,新たな特徴一貫性制約を考案する。
自己モチベーションパラダイムの微妙な設計のため、我々のSMMixは訓練のオーバーヘッドが小さく、他のCutMixの亜種よりも性能が良い。
特に、SMMixは、ImageNet-1k上で、DeiT-T/S、CaiT-XXS-24/36、PVT-T/S/M/Lの精度を+1%以上改善する。
本手法の一般化機能は,ダウンストリームタスクやアウトオブディストリビューションデータセットでも実証されている。
このプロジェクトのコードはhttps://github.com/chenmnz/smmixで入手できる。
関連論文リスト
- SUMix: Mixup with Semantic and Uncertain Information [41.99721365685618]
混合データ拡張アプローチは、ディープラーニングの様々なタスクに応用されている。
そこで我々は,SUMix という新しい手法を提案し,混合率と混合試料の不確かさを学習する。
論文 参考訳(メタデータ) (2024-07-10T16:25:26Z) - Rethinking Mixup for Improving the Adversarial Transferability [6.2867306093287905]
我々は、MIST(Mixing the Image but Separating the gradienT)と呼ばれる入力変換に基づく新たな攻撃を提案する。
MISTは、入力画像とランダムにシフトした画像とをランダムに混合し、混合画像毎に各損失項目の勾配を分離する。
ImageNetデータセットの実験では、MISTが既存のSOTA入力変換ベースの攻撃より優れていることが示されている。
論文 参考訳(メタデータ) (2023-11-28T03:10:44Z) - SpliceMix: A Cross-scale and Semantic Blending Augmentation Strategy for
Multi-label Image Classification [46.8141860303439]
マルチラベル画像分類,すなわちSpliceMixの簡易かつ効果的な拡張戦略を提案する。
本手法の「スプライス」は,1) 混合画像は, 混合に係わる画像のセマンティクスを, 共起バイアスを緩和するためのオブジェクト欠陥を伴わずにブレンドするグリッドの形で, 縮小された画像のスプライスであり, 2) 混合画像と元のミニバッチをスプリスして, 異なるスケールの画像を同時にトレーニングに寄与するSpliceMixed mini-batchを形成する。
論文 参考訳(メタデータ) (2023-11-26T05:45:27Z) - MixPro: Data Augmentation with MaskMix and Progressive Attention
Labeling for Vision Transformer [17.012278767127967]
画像とラベル空間におけるMaskMixとProgressive Attention Labelingを提案する。
画像空間の観点から、パッチのようなグリッドマスクをベースとした2つのイメージを混合したMaskMixを設計する。
ラベル空間の観点からPALを設計し, 混合注目ラベルの注意重みを動的に重み付けするプログレッシブファクターを設計する。
論文 参考訳(メタデータ) (2023-04-24T12:38:09Z) - Mixed Autoencoder for Self-supervised Visual Representation Learning [95.98114940999653]
Masked Autoencoder (MAE) は、画像パッチと再構成をランダムにマスキングすることで、様々な視覚タスクにおいて優れた性能を示す。
本稿では,MAEのミキシング強化について検討する。
論文 参考訳(メタデータ) (2023-03-30T05:19:43Z) - OAMixer: Object-aware Mixing Layer for Vision Transformers [73.10651373341933]
オブジェクトラベルに基づいてパッチベースモデルのパッチ混合層を校正するOAMixerを提案する。
オブジェクト中心の表現を学習することにより、OAMixerは様々なパッチベースモデルの分類精度と背景ロバスト性を向上することを示した。
論文 参考訳(メタデータ) (2022-12-13T14:14:48Z) - ResizeMix: Mixing Data with Preserved Object Information and True Labels [57.00554495298033]
本研究は,データ混合におけるサリエンシー情報の重要性について検討し,サリエンシー情報は増補性能向上のために必要ではないことを見出した。
本稿では,より効率的で実装が容易なresizemix法を提案する。
論文 参考訳(メタデータ) (2020-12-21T03:43:13Z) - SnapMix: Semantically Proportional Mixing for Augmenting Fine-grained
Data [124.95585891086894]
提案はSemantically Proportional Mixing(SnapMix)と呼ばれる
クラスアクティベーションマップ(CAM)を利用して、きめ細かいデータを強化する際にラベルノイズを低減します。
本手法は既存の混合型アプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2020-12-09T03:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。