論文の概要: Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks
- arxiv url: http://arxiv.org/abs/2010.02394v2
- Date: Tue, 10 Nov 2020 23:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:20:25.005760
- Title: Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks
- Title(参考訳): Mixup-Transformer: NLPタスクのための動的データ拡張
- Authors: Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip S. Yu,
Lifang He
- Abstract要約: Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
- 参考スコア(独自算出の注目度): 75.69896269357005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixup is the latest data augmentation technique that linearly interpolates
input examples and the corresponding labels. It has shown strong effectiveness
in image classification by interpolating images at the pixel level. Inspired by
this line of research, in this paper, we explore i) how to apply mixup to
natural language processing tasks since text data can hardly be mixed in the
raw format; ii) if mixup is still effective in transformer-based learning
models, e.g., BERT. To achieve the goal, we incorporate mixup to
transformer-based pre-trained architecture, named "mixup-transformer", for a
wide range of NLP tasks while keeping the whole end-to-end training system. We
evaluate the proposed framework by running extensive experiments on the GLUE
benchmark. Furthermore, we also examine the performance of mixup-transformer in
low-resource scenarios by reducing the training data with a certain ratio. Our
studies show that mixup is a domain-independent data augmentation technique to
pre-trained language models, resulting in significant performance improvement
for transformer-based models.
- Abstract(参考訳): Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
画素レベルで画像を補間することで画像分類に強い効果を示した。
この研究に触発されて、本稿では、我々は、
一 自然言語処理タスクにミックスアップを施す方法は、テキストデータが生のフォーマットで混ざり合うことがほとんどないので、どのようにして行うか。
ii)mixupが変圧器ベースの学習モデル、例えばbertにおいてなお有効である場合。
この目的を達成するために,我々は,エンドツーエンドのトレーニングシステム全体を維持しつつ,幅広いnlpタスクに"mixup-transformer"と呼ばれるトランスフォーマベースの事前学習アーキテクチャにmixupを組み込む。
提案手法をGLUEベンチマークで広範な実験により評価する。
さらに,低リソースシナリオにおけるmixup-transformerの性能を,トレーニングデータを一定割合で削減することで検証する。
本研究では、mixupは事前学習された言語モデルに対するドメインに依存しないデータ拡張技術であることを示す。
関連論文リスト
- ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。
提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。
我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-11-11T16:45:18Z) - Heterogeneous Federated Learning with Splited Language Model [22.65325348176366]
フェデレート・スプリット・ラーニング(FSL)は、実際には有望な分散学習パラダイムである。
本稿では,前訓練画像変換器(PIT)をFedVと呼ばれる初期モデルとして利用し,トレーニングプロセスの高速化とモデルロバスト性の向上を図る。
我々は、実世界のデータセット、異なる部分的デバイス参加、異種データ分割におけるPITを用いたFSL手法の体系的評価を初めて行った。
論文 参考訳(メタデータ) (2024-03-24T07:33:08Z) - TransformMix: Learning Transformation and Mixing Strategies from Data [20.79680733590554]
我々は、データからより良い変換と拡張戦略を混合するための自動アプローチであるTransformMixを提案する。
本稿では,トランスフォーメーション学習,分類,オブジェクト検出,知識蒸留設定におけるTransformMixの有効性を示す。
論文 参考訳(メタデータ) (2024-03-19T04:36:41Z) - Adversarial AutoMixup [50.1874436169571]
本稿では,AdAutomixupを提案する。
画像分類のための堅牢な分類器を訓練するために、挑戦的なサンプルを生成する。
本手法は, 様々な分類シナリオにおいて, 技術状況に優れる。
論文 参考訳(メタデータ) (2023-12-19T08:55:00Z) - TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-14T12:02:24Z) - MixupE: Understanding and Improving Mixup from Directional Derivative
Perspective [86.06981860668424]
理論上は、バニラ・ミックスアップよりも優れた一般化性能を実現するために、Mixupの改良版を提案する。
提案手法は,様々なアーキテクチャを用いて,複数のデータセットにまたがるMixupを改善した。
論文 参考訳(メタデータ) (2022-12-27T07:03:52Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - MixUp Training Leads to Reduced Overfitting and Improved Calibration for
the Transformer Architecture [0.0]
mixupは、入力データとそのラベルの凸一般化を用いてトレーニング中のモデルを強化するコンピュータビジョンデータ拡張技術である。
本研究では,トランスの入力,マニホールド,文埋め込みレベルでのMixUp法を提案し,さまざまなNLUタスクに対してBERTモデルを微調整する。
mixupはモデルのパフォーマンスを向上し、テスト損失とモデルのキャリブレーションエラーを最大50%削減できることが分かりました。
論文 参考訳(メタデータ) (2021-02-22T23:12:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。