論文の概要: CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2010.08670v1
- Date: Fri, 16 Oct 2020 23:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:15:54.972021
- Title: CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding
- Title(参考訳): CoDA: 自然言語理解のためのコントラスト強化と多様性促進のためのデータ拡張
- Authors: Yanru Qu, Dinghan Shen, Yelong Shen, Sandra Sajeev, Jiawei Han, Weizhu
Chen
- Abstract要約: 我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
- 参考スコア(独自算出の注目度): 67.61357003974153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation has been demonstrated as an effective strategy for
improving model generalization and data efficiency. However, due to the
discrete nature of natural language, designing label-preserving transformations
for text data tends to be more challenging. In this paper, we propose a novel
data augmentation framework dubbed CoDA, which synthesizes diverse and
informative augmented examples by integrating multiple transformations
organically. Moreover, a contrastive regularization objective is introduced to
capture the global relationship among all the data samples. A momentum encoder
along with a memory bank is further leveraged to better estimate the
contrastive loss. To verify the effectiveness of the proposed framework, we
apply CoDA to Transformer-based models on a wide range of natural language
understanding tasks. On the GLUE benchmark, CoDA gives rise to an average
improvement of 2.2% while applied to the RoBERTa-large model. More importantly,
it consistently exhibits stronger results relative to several competitive data
augmentation and adversarial training base-lines (including the low-resource
settings). Extensive experiments show that the proposed contrastive objective
can be flexibly combined with various data augmentation approaches to further
boost their performance, highlighting the wide applicability of the CoDA
framework.
- Abstract(参考訳): データ拡張はモデル一般化とデータ効率を改善する効果的な戦略として実証されている。
しかし、自然言語の離散的な性質から、テキストデータに対するラベル保存変換の設計はより難しい傾向がある。
本稿では,複数の変換を有機的に統合することで,多種多様な付加例を合成する,CoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
さらに、全データサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
さらに、メモリバンクと共に運動量エンコーダを利用してコントラスト損失を推定する。
提案手法の有効性を検証するため,多種多様な自然言語理解タスクにおけるトランスフォーマーモデルにCoDAを適用した。
GLUEベンチマークでは、CoDAはRoBERTa-largeモデルに適用しながら平均2.2%の改善を実現している。
さらに重要なのは、競争力のあるデータ拡張と敵のトレーニングベースライン(低リソース設定を含む)に対して、一貫して強力な結果を示すことだ。
広範な実験により、提案されたコントラスト目的とさまざまなデータ拡張アプローチを柔軟に組み合わせて、パフォーマンスをさらに向上し、CoDAフレームワークの広範な適用性を強調している。
関連論文リスト
- MixEdit: Revisiting Data Augmentation and Beyond for Grammatical Error
Correction [24.370610646959907]
モノリンガルコーパスを余分に必要とせずに、戦略的かつ動的にリアルなデータを拡張するデータ拡張手法であるMixEditを提案する。
その結果,MixEdit は GEC モデルを大幅に改善し,従来のデータ拡張手法を補完することを示した。
論文 参考訳(メタデータ) (2023-10-18T02:45:51Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - Distributionally Robust Cross Subject EEG Decoding [15.211091130230589]
本稿では,デコードロバスト性を改善するために,データ上で動的に進化する原理的手法を提案する。
We derived a general data evolution framework based on Wasserstein gradient flow (WGF) and provide two different form of evolution within the framework。
提案手法は、さらなる改善のために、他のデータ拡張手法と容易に統合できる。
論文 参考訳(メタデータ) (2023-08-19T11:31:33Z) - Augmenting Reddit Posts to Determine Wellness Dimensions impacting
Mental Health [0.7874708385247353]
本稿では,プロンプトベースジェネレーティブNLPモデルによる簡易かつ効果的なデータ拡張手法を提案する。
既存の解釈と拡張データ間のROUGEスコアと構文・意味的類似性を評価する。
論文 参考訳(メタデータ) (2023-06-06T23:15:59Z) - Contrastive Learning with Consistent Representations [8.274769259790926]
本稿では,一貫性表現を用いたコントラスト学習(CoCor)を提案する。
CoCorは、拡張入力データの表現空間へのマッピングを規定する新しい整合性尺度であるDA整合性(DA整合性)である。
提案手法により,2段階最適化に基づく半教師付き学習フレームワークが実現され,画像認識のための新たな最先端結果が得られた。
論文 参考訳(メタデータ) (2023-02-03T04:34:00Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - DivAug: Plug-in Automated Data Augmentation with Explicit Diversity
Maximization [41.82120128496555]
拡張データの多様性に関する2つの要因はまだ欠けている:1)多様性の明示的な定義(したがって測定)と2)多様性とその正規化効果の定量化可能な関係。
分散多様性(Variance Diversity)と呼ばれる多様性尺度を提案し、理論的にはデータ拡張の正規化効果がVariance Diversityによって約束されることを示した。
監視されていないサンプリングベースのフレームワークであるDivAugは、Variance Diversityを直接最大化し、正規化効果を強化するように設計されています。
論文 参考訳(メタデータ) (2021-03-26T16:00:01Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。