論文の概要: HiddenCut: Simple Data Augmentation for Natural Language Understanding
with Better Generalization
- arxiv url: http://arxiv.org/abs/2106.00149v1
- Date: Mon, 31 May 2021 23:57:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 03:43:45.122346
- Title: HiddenCut: Simple Data Augmentation for Natural Language Understanding
with Better Generalization
- Title(参考訳): HiddenCut: より一般化した自然言語理解のためのシンプルなデータ拡張
- Authors: Jiaao Chen, Dinghan Shen, Weizhu Chen, Diyi Yang
- Abstract要約: タスク固有のデータで訓練済みの大規模モデルを微調整することで、NLPで大きな成功を収めた。
我々は、モデルをより良く正規化し、より一般化可能な機能を学ぶことを奨励する、シンプルで効果的なデータ拡張手法であるHiddenCutを提案する。
実験の結果,HiddenCut 法は GLUE ベンチマークの最先端拡張法よりも優れていた。
- 参考スコア(独自算出の注目度): 36.36061533271373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large pre-trained models with task-specific data has achieved
great success in NLP. However, it has been demonstrated that the majority of
information within the self-attention networks is redundant and not utilized
effectively during the fine-tuning stage. This leads to inferior results when
generalizing the obtained models to out-of-domain distributions. To this end,
we propose a simple yet effective data augmentation technique, HiddenCut, to
better regularize the model and encourage it to learn more generalizable
features. Specifically, contiguous spans within the hidden space are
dynamically and strategically dropped during training. Experiments show that
our HiddenCut method outperforms the state-of-the-art augmentation methods on
the GLUE benchmark, and consistently exhibits superior generalization
performances on out-of-distribution and challenging counterexamples. We have
publicly released our code at https://github.com/GT-SALT/HiddenCut.
- Abstract(参考訳): タスク固有のデータで訓練済みの大規模モデルを微調整することで、NLPで大きな成功を収めた。
しかし,ネットワーク内の情報の大部分は冗長であり,微調整段階では有効に利用できないことが実証されている。
これにより、得られたモデルをドメイン外分布に一般化した場合の結果は劣る。
この目的のために、モデルをより規則化し、より一般化可能な機能を学ぶことを奨励する、単純で効果的なデータ拡張手法であるHiddenCutを提案する。
具体的には、隠れた空間内の連続した空間は、訓練中に動的かつ戦略的に減少する。
実験の結果,HiddenCut 法は GLUE ベンチマークの最先端拡張法よりも優れており,非分配性や対抗策に優れた一般化性能を示すことがわかった。
私たちはコードをhttps://github.com/gt-salt/hiddencut.comで公開しました。
関連論文リスト
- Enhancing Size Generalization in Graph Neural Networks through Disentangled Representation Learning [7.448831299106425]
DISGENは、グラフ表現からサイズ因子をアンタングルするために設計された、モデルに依存しないフレームワークである。
実験の結果, DISGENは実世界のデータセットにおいて, 最先端のモデルよりも最大6%優れていた。
論文 参考訳(メタデータ) (2024-06-07T03:19:24Z) - TED: Accelerate Model Training by Internal Generalization [19.336762953352956]
大規模言語モデルは近年,高いパフォーマンスを示しているが,トレーニングコストが高いため,データセットサイズを圧縮する効率的な方法の必要性が高まっている。
本研究では,高プルーニング比下でのオーバーフィッティングの課題に対処するTEDプルーニングを提案する。
論文 参考訳(メタデータ) (2024-05-06T07:40:13Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Adversarial Style Augmentation for Domain Generalization [41.72506801753435]
本稿では,より効率的な統計摂動を発生させることにより,より広いスタイル空間を探索する,新しいAdrial Style Augmentation (ASA)手法を提案する。
ASA の応用を容易にするため,プラグイン・アンド・プレイ方式で ASA メソッドをインスタンス化するシンプルなモジュールである AdvStyle を設計した。
本手法は,PACSデータセット上での単一ソース一般化条件下での競合よりも優れていた。
論文 参考訳(メタデータ) (2023-01-30T03:52:16Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z) - Combining Label Propagation and Simple Models Out-performs Graph Neural
Networks [52.121819834353865]
多くの標準的なトランスダクティブノード分類ベンチマークでは、最先端のGNNの性能を超えたり、一致させることができる。
これをC&S(Correct and Smooth)と呼ぶ。
我々のアプローチは、様々なベンチマークで最先端のGNNの性能を上回るか、ほぼ一致している。
論文 参考訳(メタデータ) (2020-10-27T02:10:52Z) - Robust Optimization as Data Augmentation for Large-scale Graphs [117.2376815614148]
学習中に勾配に基づく逆方向摂動を伴うノード特徴を反復的に拡張するFLAG(Free Large-scale Adversarial Augmentation on Graphs)を提案する。
FLAGはグラフデータに対する汎用的なアプローチであり、ノード分類、リンク予測、グラフ分類タスクで普遍的に機能する。
論文 参考訳(メタデータ) (2020-10-19T21:51:47Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。