論文の概要: TransMix: Attend to Mix for Vision Transformers
- arxiv url: http://arxiv.org/abs/2111.09833v1
- Date: Thu, 18 Nov 2021 17:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 14:50:29.290781
- Title: TransMix: Attend to Mix for Vision Transformers
- Title(参考訳): transmix: 視覚トランスフォーマーのためのミックスに参加
- Authors: Jie-Neng Chen, Shuyang Sun, Ju He, Philip Torr, Alan Yuille, Song Bai
- Abstract要約: 視覚変換器のアテンションマップに基づいてラベルを混合するTransMixを提案する。
対応する入力画像がアテンションマップによって重み付けされた場合、ラベルの信頼性が大きくなる。
TransMixは、ImageNet分類に基づいて、様々なViTベースのモデルを継続的に改善する。
- 参考スコア(独自算出の注目度): 26.775918851867246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixup-based augmentation has been found to be effective for generalizing
models during training, especially for Vision Transformers (ViTs) since they
can easily overfit. However, previous mixup-based methods have an underlying
prior knowledge that the linearly interpolated ratio of targets should be kept
the same as the ratio proposed in input interpolation. This may lead to a
strange phenomenon that sometimes there is no valid object in the mixed image
due to the random process in augmentation but there is still response in the
label space. To bridge such gap between the input and label spaces, we propose
TransMix, which mixes labels based on the attention maps of Vision
Transformers. The confidence of the label will be larger if the corresponding
input image is weighted higher by the attention map. TransMix is embarrassingly
simple and can be implemented in just a few lines of code without introducing
any extra parameters and FLOPs to ViT-based models. Experimental results show
that our method can consistently improve various ViT-based models at scales on
ImageNet classification. After pre-trained with TransMix on ImageNet, the
ViT-based models also demonstrate better transferability to semantic
segmentation, object detection and instance segmentation. TransMix also
exhibits to be more robust when evaluating on 4 different benchmarks. Code will
be made publicly available at https://github.com/Beckschen/TransMix.
- Abstract(参考訳): ミックスアップベースの拡張はトレーニング中のモデルの一般化、特に視覚変換器(ViT)のオーバーフィットに有効であることが判明した。
しかし、これまでのミックスアップに基づく手法では、対象の線形補間比は入力補間で提案された比と同一に保つべきであるという事前の知識を持っている。
これは、時折増大中のランダムな過程のために混合画像に有効な対象が存在しないという奇妙な現象を引き起こすかもしれないが、ラベル空間にはまだ応答がある。
入力空間とラベル空間のギャップを埋めるために,視覚変換器のアテンションマップに基づいてラベルを混合するTransMixを提案する。
対応する入力画像が注意マップによって重み付けされた場合、ラベルの信頼度は大きくなる。
TransMixは恥ずかしいほどシンプルで、ViTベースのモデルに追加のパラメータやFLOPを導入することなく、ほんの数行のコードで実装できる。
実験結果から,ImageNet分類による様々なViTモデルの改良が一貫して可能であることがわかった。
imagenetでtransmixを事前トレーニングした後、vitベースのモデルは、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションへの転送性も向上している。
TransMixはまた、4つの異なるベンチマークで評価する場合、より堅牢であることを示している。
コードはhttps://github.com/Beckschen/TransMix.comで公開される。
関連論文リスト
- Cross-modal Orthogonal High-rank Augmentation for RGB-Event
Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。
本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。
実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文 参考訳(メタデータ) (2023-07-09T08:58:47Z) - MixPro: Data Augmentation with MaskMix and Progressive Attention
Labeling for Vision Transformer [17.012278767127967]
画像とラベル空間におけるMaskMixとProgressive Attention Labelingを提案する。
画像空間の観点から、パッチのようなグリッドマスクをベースとした2つのイメージを混合したMaskMixを設計する。
ラベル空間の観点からPALを設計し, 混合注目ラベルの注意重みを動的に重み付けするプログレッシブファクターを設計する。
論文 参考訳(メタデータ) (2023-04-24T12:38:09Z) - SMMix: Self-Motivated Image Mixing for Vision Transformers [65.809376136455]
CutMixは視覚変換器(ViT)の性能と一般化能力を決定する重要な拡張戦略である
既存のCutMixの変種は、より一貫性のある混合画像やより正確な混合ラベルを生成することでこの問題に対処している。
本稿では,学習モデルによる画像とラベルの強調を動機づける,効率的かつ効果的な自己運動画像混合法を提案する。
論文 参考訳(メタデータ) (2022-12-26T00:19:39Z) - OAMixer: Object-aware Mixing Layer for Vision Transformers [73.10651373341933]
オブジェクトラベルに基づいてパッチベースモデルのパッチ混合層を校正するOAMixerを提案する。
オブジェクト中心の表現を学習することにより、OAMixerは様々なパッチベースモデルの分類精度と背景ロバスト性を向上することを示した。
論文 参考訳(メタデータ) (2022-12-13T14:14:48Z) - TokenMixup: Efficient Attention-guided Token-level Data Augmentation for
Transformers [8.099977107670917]
TokenMixupは効果的な注意誘導型トークンレベルのデータ拡張手法である。
TokenMixupの亜種はトークンをひとつのインスタンスに混ぜて、マルチスケールの機能拡張を可能にする。
実験の結果,CIFARおよびImageNet-1Kにおけるベースラインモデルの性能は有意に向上した。
論文 参考訳(メタデータ) (2022-10-14T06:36:31Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Patches Are All You Need? [96.88889685873106]
ビジョントランスフォーマー(ViT)モデルは、いくつかの設定でパフォーマンスを上回る可能性がある。
ViTは、イメージの小さな領域を単一の入力機能にまとめるパッチ埋め込みを使用する必要がある。
本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか?
論文 参考訳(メタデータ) (2022-01-24T16:42:56Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。