論文の概要: AMPLIFY:Attention-based Mixup for Performance Improvement and Label Smoothing in Transformer
- arxiv url: http://arxiv.org/abs/2309.12689v3
- Date: Wed, 8 May 2024 11:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 19:20:21.691981
- Title: AMPLIFY:Attention-based Mixup for Performance Improvement and Label Smoothing in Transformer
- Title(参考訳): AMPLIFY:Attention-based Mixup for Performance Improvement and Label Smoothing in Transformer
- Authors: Leixin Yang, Yu Xiang,
- Abstract要約: AMPLIFYはTransformer自体のアテンション機構を使用して、元のサンプルのノイズや異常値が予測結果に与える影響を低減する。
実験の結果,AMPLIFYは計算資源のコストが小さく,テキスト分類作業において他の混合手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 2.3072402651280517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixup is an effective data augmentation method that generates new augmented samples by aggregating linear combinations of different original samples. However, if there are noises or aberrant features in the original samples, Mixup may propagate them to the augmented samples, leading to over-sensitivity of the model to these outliers . To solve this problem, this paper proposes a new Mixup method called AMPLIFY. This method uses the Attention mechanism of Transformer itself to reduce the influence of noises and aberrant values in the original samples on the prediction results, without increasing additional trainable parameters, and the computational cost is very low, thereby avoiding the problem of high resource consumption in common Mixup methods such as Sentence Mixup . The experimental results show that, under a smaller computational resource cost, AMPLIFY outperforms other Mixup methods in text classification tasks on 7 benchmark datasets, providing new ideas and new ways to further improve the performance of pre-trained models based on the Attention mechanism, such as BERT, ALBERT, RoBERTa, and GPT. Our code can be obtained at https://github.com/kiwi-lilo/AMPLIFY.
- Abstract(参考訳): Mixupは、異なる元のサンプルの線形結合を集約することにより、新しい拡張サンプルを生成する効果的なデータ拡張手法である。
しかし、元のサンプルにノイズや異常な特徴がある場合、Mixupはそれらを拡張されたサンプルに伝達し、モデルがこれらの外れ値に過度に敏感になる可能性がある。
そこで本研究ではAMPLIFYと呼ばれる新しい混合手法を提案する。
本手法では,トランスフォーマー自体のアテンション機構を用いて,トレーニング可能なパラメータを追加することなく,元のサンプルのノイズや異常値が予測結果に与える影響を低減する。
実験の結果, AMPLIFYは, 計算資源のコストが小さく, 7つのベンチマークデータセット上でのテキスト分類タスクにおいて他のmixupメソッドよりも優れており, BERT, ALBERT, RoBERTa, GPTなどのアテンション機構に基づく事前学習モデルの性能向上のための新しいアイデアと新しい方法が得られた。
私たちのコードはhttps://github.com/kiwi-lilo/AMPLIFY.comで取得できます。
関連論文リスト
- TransformMix: Learning Transformation and Mixing Strategies from Data [20.79680733590554]
我々は、データからより良い変換と拡張戦略を混合するための自動アプローチであるTransformMixを提案する。
本稿では,トランスフォーメーション学習,分類,オブジェクト検出,知識蒸留設定におけるTransformMixの有効性を示す。
論文 参考訳(メタデータ) (2024-03-19T04:36:41Z) - Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - An Empirical Study of the Effects of Sample-Mixing Methods for Efficient
Training of Generative Adversarial Networks [0.0]
生成敵対ネットワーク(GAN)のトレーニングは、発電機が高品質のサンプルを提供する前に巨大なイテレーションを必要とすることがよく知られています。
本研究では, この問題を緩和するために, 試料混合法であるMixup, CutMix, SRMixの効果を検討した。
論文 参考訳(メタデータ) (2021-04-08T06:40:23Z) - ReMix: Towards Image-to-Image Translation with Limited Data [154.71724970593036]
本稿では,この問題に対処するためのデータ拡張手法(ReMix)を提案する。
特徴レベルでのトレーニングサンプルを補間し、サンプル間の知覚的関係に基づく新しいコンテンツ損失を提案します。
提案手法は, 生成のあいまいさを効果的に低減し, コンテンツ保存結果を生成する。
論文 参考訳(メタデータ) (2021-03-31T06:24:10Z) - Co-Mixup: Saliency Guided Joint Mixup with Supermodular Diversity [15.780905917870427]
バッチ混成データに対する新たな視点を提案し, バッチ混成データの最適構築を定式化する。
また,各ミニバッチ毎に効率的な混合を行うために,効率的なモジュール近似に基づく反復的部分モジュラー計算アルゴリズムを提案する。
実験により, 提案手法は, 技術一般化, キャリブレーション, および弱教師付き局所化結果の状態を達成できることを示した。
論文 参考訳(メタデータ) (2021-02-05T09:12:02Z) - Recursive Inference for Variational Autoencoders [34.552283758419506]
従来の変分オートエンコーダ(VAE)の推論ネットワークは典型的に償却される。
この欠点に対処するために、最近の半修正アプローチが提案されている。
精度の高い償却推論アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-11-17T10:22:12Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。