論文の概要: CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2010.08670v1
- Date: Fri, 16 Oct 2020 23:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:15:54.972021
- Title: CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding
- Title(参考訳): CoDA: 自然言語理解のためのコントラスト強化と多様性促進のためのデータ拡張
- Authors: Yanru Qu, Dinghan Shen, Yelong Shen, Sandra Sajeev, Jiawei Han, Weizhu
Chen
- Abstract要約: 我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
- 参考スコア(独自算出の注目度): 67.61357003974153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation has been demonstrated as an effective strategy for
improving model generalization and data efficiency. However, due to the
discrete nature of natural language, designing label-preserving transformations
for text data tends to be more challenging. In this paper, we propose a novel
data augmentation framework dubbed CoDA, which synthesizes diverse and
informative augmented examples by integrating multiple transformations
organically. Moreover, a contrastive regularization objective is introduced to
capture the global relationship among all the data samples. A momentum encoder
along with a memory bank is further leveraged to better estimate the
contrastive loss. To verify the effectiveness of the proposed framework, we
apply CoDA to Transformer-based models on a wide range of natural language
understanding tasks. On the GLUE benchmark, CoDA gives rise to an average
improvement of 2.2% while applied to the RoBERTa-large model. More importantly,
it consistently exhibits stronger results relative to several competitive data
augmentation and adversarial training base-lines (including the low-resource
settings). Extensive experiments show that the proposed contrastive objective
can be flexibly combined with various data augmentation approaches to further
boost their performance, highlighting the wide applicability of the CoDA
framework.
- Abstract(参考訳): データ拡張はモデル一般化とデータ効率を改善する効果的な戦略として実証されている。
しかし、自然言語の離散的な性質から、テキストデータに対するラベル保存変換の設計はより難しい傾向がある。
本稿では,複数の変換を有機的に統合することで,多種多様な付加例を合成する,CoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
さらに、全データサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
さらに、メモリバンクと共に運動量エンコーダを利用してコントラスト損失を推定する。
提案手法の有効性を検証するため,多種多様な自然言語理解タスクにおけるトランスフォーマーモデルにCoDAを適用した。
GLUEベンチマークでは、CoDAはRoBERTa-largeモデルに適用しながら平均2.2%の改善を実現している。
さらに重要なのは、競争力のあるデータ拡張と敵のトレーニングベースライン(低リソース設定を含む)に対して、一貫して強力な結果を示すことだ。
広範な実験により、提案されたコントラスト目的とさまざまなデータ拡張アプローチを柔軟に組み合わせて、パフォーマンスをさらに向上し、CoDAフレームワークの広範な適用性を強調している。
関連論文リスト
- A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - AdaAugment: A Tuning-Free and Adaptive Approach to Enhance Data Augmentation [12.697608744311122]
AdaAugmentは、チューニング不要なAdaptive Augmentationメソッドである。
対象ネットワークからのリアルタイムフィードバックに基づいて、個別のトレーニングサンプルの増大度を動的に調整する。
優れた効率を保ちながら、他の最先端のDAメソッドの効率を一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-19T06:54:03Z) - MixEdit: Revisiting Data Augmentation and Beyond for Grammatical Error
Correction [24.370610646959907]
モノリンガルコーパスを余分に必要とせずに、戦略的かつ動的にリアルなデータを拡張するデータ拡張手法であるMixEditを提案する。
その結果,MixEdit は GEC モデルを大幅に改善し,従来のデータ拡張手法を補完することを示した。
論文 参考訳(メタデータ) (2023-10-18T02:45:51Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - Contrastive Learning with Consistent Representations [8.364383223740097]
本稿では,Contrastive Learning with Consistent Representations CoCorを提案する。
CoCorの中心には、DA整合性と呼ばれる新しい整合性指標があります。
実験結果から,CoCorは学習した表現の一般化可能性や伝達可能性を高めることが明らかとなった。
論文 参考訳(メタデータ) (2023-02-03T04:34:00Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - DivAug: Plug-in Automated Data Augmentation with Explicit Diversity
Maximization [41.82120128496555]
拡張データの多様性に関する2つの要因はまだ欠けている:1)多様性の明示的な定義(したがって測定)と2)多様性とその正規化効果の定量化可能な関係。
分散多様性(Variance Diversity)と呼ばれる多様性尺度を提案し、理論的にはデータ拡張の正規化効果がVariance Diversityによって約束されることを示した。
監視されていないサンプリングベースのフレームワークであるDivAugは、Variance Diversityを直接最大化し、正規化効果を強化するように設計されています。
論文 参考訳(メタデータ) (2021-03-26T16:00:01Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。