論文の概要: TokenMixup: Efficient Attention-guided Token-level Data Augmentation for
Transformers
- arxiv url: http://arxiv.org/abs/2210.07562v1
- Date: Fri, 14 Oct 2022 06:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:51:56.307439
- Title: TokenMixup: Efficient Attention-guided Token-level Data Augmentation for
Transformers
- Title(参考訳): tokenmixup: トランスフォーマーのための効率的な注意誘導トークンレベルのデータ拡張
- Authors: Hyeong Kyu Choi, Joonmyung Choi, Hyunwoo J. Kim
- Abstract要約: TokenMixupは効果的な注意誘導型トークンレベルのデータ拡張手法である。
TokenMixupの亜種はトークンをひとつのインスタンスに混ぜて、マルチスケールの機能拡張を可能にする。
実験の結果,CIFARおよびImageNet-1Kにおけるベースラインモデルの性能は有意に向上した。
- 参考スコア(独自算出の注目度): 8.099977107670917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixup is a commonly adopted data augmentation technique for image
classification. Recent advances in mixup methods primarily focus on mixing
based on saliency. However, many saliency detectors require intense computation
and are especially burdensome for parameter-heavy transformer models. To this
end, we propose TokenMixup, an efficient attention-guided token-level data
augmentation method that aims to maximize the saliency of a mixed set of
tokens. TokenMixup provides x15 faster saliency-aware data augmentation
compared to gradient-based methods. Moreover, we introduce a variant of
TokenMixup which mixes tokens within a single instance, thereby enabling
multi-scale feature augmentation. Experiments show that our methods
significantly improve the baseline models' performance on CIFAR and
ImageNet-1K, while being more efficient than previous methods. We also reach
state-of-the-art performance on CIFAR-100 among from-scratch transformer
models. Code is available at https://github.com/mlvlab/TokenMixup.
- Abstract(参考訳): Mixupは画像分類のための一般的なデータ拡張手法である。
近年の混合法の発展は主に塩分濃度に基づく混合に焦点を当てている。
しかし、多くのサリエンシー検出器は強い計算を必要とするため、特にパラメータ重畳トランスフォーマーモデルに負担がかかる。
そこで本研究では,複合トークン集合の給与を最大化することを目的とした,効率的な注意誘導型トークンレベルのデータ拡張手法であるtokenmixupを提案する。
TokenMixupは、グラデーションベースの方法と比較して、x15の精度対応データ拡張を提供する。
さらに,単一インスタンス内でトークンを混合するtokenmixupの変種を導入し,マルチスケール機能拡張を実現する。
実験の結果,cifarおよびimagenet-1kにおけるベースラインモデルの性能は,従来の手法よりも大幅に向上した。
また,CIFAR-100のストレートスクラッチ変圧器モデルにおける最先端性能についても検討した。
コードはhttps://github.com/mlvlab/tokenmixupで入手できる。
関連論文リスト
- Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - TransformMix: Learning Transformation and Mixing Strategies from Data [20.79680733590554]
我々は、データからより良い変換と拡張戦略を混合するための自動アプローチであるTransformMixを提案する。
本稿では,トランスフォーメーション学習,分類,オブジェクト検出,知識蒸留設定におけるTransformMixの有効性を示す。
論文 参考訳(メタデータ) (2024-03-19T04:36:41Z) - Adversarial AutoMixup [50.1874436169571]
本稿では,AdAutomixupを提案する。
画像分類のための堅牢な分類器を訓練するために、挑戦的なサンプルを生成する。
本手法は, 様々な分類シナリオにおいて, 技術状況に優れる。
論文 参考訳(メタデータ) (2023-12-19T08:55:00Z) - MixupE: Understanding and Improving Mixup from Directional Derivative
Perspective [86.06981860668424]
理論上は、バニラ・ミックスアップよりも優れた一般化性能を実現するために、Mixupの改良版を提案する。
提案手法は,様々なアーキテクチャを用いて,複数のデータセットにまたがるMixupを改善した。
論文 参考訳(メタデータ) (2022-12-27T07:03:52Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - TokenMix: Rethinking Image Mixing for Data Augmentation in Vision
Transformers [36.630476419392046]
CutMixは、現代の畳み込みとトランスフォーマービジョンネットワークのトレーニングによく使われる、一般的な拡張テクニックである。
本稿では,視覚変換器の性能向上のために,新しいデータ拡張手法であるTokenMixを提案する。
論文 参考訳(メタデータ) (2022-07-18T07:08:29Z) - MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of
Hierarchical Vision Transformers [35.26148770111607]
Mixed and Masked AutoEncoder (MixMAE) は、様々な階層型視覚変換器に適用可能な、シンプルだが効率的な事前学習手法である。
本稿では,Swin-B/W14を用いたMixMAEにおいて,600エポックの事前トレーニングにより,ImageNet-1K上で85.1%の精度を実現している。
論文 参考訳(メタデータ) (2022-05-26T04:00:42Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。