Fugu-MT 論文翻訳(概要): CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for Natural Language Understanding

論文の概要: CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for Natural Language Understanding

arxiv url: http://arxiv.org/abs/2010.08670v1
Date: Fri, 16 Oct 2020 23:57:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 21:15:54.972021
Title: CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for Natural Language Understanding
Title（参考訳）: CoDA: 自然言語理解のためのコントラスト強化と多様性促進のためのデータ拡張
Authors: Yanru Qu, Dinghan Shen, Yelong Shen, Sandra Sajeev, Jiawei Han, Weizhu Chen
Abstract要約: 我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。 CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
参考スコア（独自算出の注目度）: 67.61357003974153
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data augmentation has been demonstrated as an effective strategy for improving model generalization and data efficiency. However, due to the discrete nature of natural language, designing label-preserving transformations for text data tends to be more challenging. In this paper, we propose a novel data augmentation framework dubbed CoDA, which synthesizes diverse and informative augmented examples by integrating multiple transformations organically. Moreover, a contrastive regularization objective is introduced to capture the global relationship among all the data samples. A momentum encoder along with a memory bank is further leveraged to better estimate the contrastive loss. To verify the effectiveness of the proposed framework, we apply CoDA to Transformer-based models on a wide range of natural language understanding tasks. On the GLUE benchmark, CoDA gives rise to an average improvement of 2.2% while applied to the RoBERTa-large model. More importantly, it consistently exhibits stronger results relative to several competitive data augmentation and adversarial training base-lines (including the low-resource settings). Extensive experiments show that the proposed contrastive objective can be flexibly combined with various data augmentation approaches to further boost their performance, highlighting the wide applicability of the CoDA framework.
Abstract（参考訳）: データ拡張はモデル一般化とデータ効率を改善する効果的な戦略として実証されている。しかし、自然言語の離散的な性質から、テキストデータに対するラベル保存変換の設計はより難しい傾向がある。本稿では,複数の変換を有機的に統合することで,多種多様な付加例を合成する,CoDAと呼ばれる新しいデータ拡張フレームワークを提案する。さらに、全データサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。さらに、メモリバンクと共に運動量エンコーダを利用してコントラスト損失を推定する。提案手法の有効性を検証するため,多種多様な自然言語理解タスクにおけるトランスフォーマーモデルにCoDAを適用した。 GLUEベンチマークでは、CoDAはRoBERTa-largeモデルに適用しながら平均2.2%の改善を実現している。さらに重要なのは、競争力のあるデータ拡張と敵のトレーニングベースライン(低リソース設定を含む)に対して、一貫して強力な結果を示すことだ。広範な実験により、提案されたコントラスト目的とさまざまなデータ拡張アプローチを柔軟に組み合わせて、パフォーマンスをさらに向上し、CoDAフレームワークの広範な適用性を強調している。

関連論文リスト

Effective Dual-Region Augmentation for Reduced Reliance on Large Amounts of Labeled Data [1.0901840476380924]
本稿では,大規模ラベル付きデータセットへの依存を減らすために,新しい二重領域拡張手法を提案する。提案手法は,前景オブジェクトにランダムノイズ摂動を適用することで,対象データ変換を行う。 SFDAのためのPACSデータセットの評価は、当社の増補戦略が既存の手法を一貫して上回っていることを示している。 Market-1501とDukeMTMC-reIDデータセットの実験は、我々のアプローチの有効性を検証する。
論文参考訳（メタデータ） (2025-04-17T16:42:33Z)
A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文参考訳（メタデータ） (2024-08-01T07:40:00Z)
AdaAugment: A Tuning-Free and Adaptive Approach to Enhance Data Augmentation [12.697608744311122]
AdaAugmentは、チューニング不要なAdaptive Augmentationメソッドである。対象ネットワークからのリアルタイムフィードバックに基づいて、個別のトレーニングサンプルの増大度を動的に調整する。優れた効率を保ちながら、他の最先端のDAメソッドの効率を一貫して上回ります。
論文参考訳（メタデータ） (2024-05-19T06:54:03Z)
MixEdit: Revisiting Data Augmentation and Beyond for Grammatical Error Correction [24.370610646959907]
モノリンガルコーパスを余分に必要とせずに、戦略的かつ動的にリアルなデータを拡張するデータ拡張手法であるMixEditを提案する。その結果,MixEdit は GEC モデルを大幅に改善し,従来のデータ拡張手法を補完することを示した。
論文参考訳（メタデータ） (2023-10-18T02:45:51Z)
DualAug: Exploiting Additional Heavy Augmentation with OOD Data Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文参考訳（メタデータ） (2023-10-12T08:55:10Z)
Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文参考訳（メタデータ） (2023-04-26T10:36:40Z)
Contrastive Learning with Consistent Representations [8.364383223740097]
本稿では,Contrastive Learning with Consistent Representations CoCorを提案する。 CoCorの中心には、DA整合性と呼ばれる新しい整合性指標があります。実験結果から,CoCorは学習した表現の一般化可能性や伝達可能性を高めることが明らかとなった。
論文参考訳（メタデータ） (2023-02-03T04:34:00Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)
DivAug: Plug-in Automated Data Augmentation with Explicit Diversity Maximization [41.82120128496555]
拡張データの多様性に関する2つの要因はまだ欠けている:1)多様性の明示的な定義(したがって測定)と2)多様性とその正規化効果の定量化可能な関係。分散多様性(Variance Diversity)と呼ばれる多様性尺度を提案し、理論的にはデータ拡張の正規化効果がVariance Diversityによって約束されることを示した。監視されていないサンプリングベースのフレームワークであるDivAugは、Variance Diversityを直接最大化し、正規化効果を強化するように設計されています。
論文参考訳（メタデータ） (2021-03-26T16:00:01Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。 G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文参考訳（メタデータ） (2020-04-24T06:12:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。