論文の概要: Unsupervised Data Augmentation with Naive Augmentation and without
Unlabeled Data
- arxiv url: http://arxiv.org/abs/2010.11966v1
- Date: Thu, 22 Oct 2020 18:01:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:12:09.375079
- Title: Unsupervised Data Augmentation with Naive Augmentation and without
Unlabeled Data
- Title(参考訳): 教師なしデータ拡張とラベルなしデータなしでのナイーブ拡張
- Authors: David Lowell, Brian E. Howard, Zachary C. Lipton, Byron C. Wallace
- Abstract要約: Unsupervised Data Augmentation (UDA) は、モデルの予測の違いを解析するために一貫性損失を適用する半教師付き手法である。
本稿では,UDAを再検討し,その有効性を示す。
一貫性の喪失を適用することで、ラベルのないデータなしで有意義な利益が得られることが分かりました。
- 参考スコア(独自算出の注目度): 40.82826366059613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Data Augmentation (UDA) is a semi-supervised technique that
applies a consistency loss to penalize differences between a model's
predictions on (a) observed (unlabeled) examples; and (b) corresponding
'noised' examples produced via data augmentation. While UDA has gained
popularity for text classification, open questions linger over which design
decisions are necessary and over how to extend the method to sequence labeling
tasks. This method has recently gained traction for text classification. In
this paper, we re-examine UDA and demonstrate its efficacy on several
sequential tasks. Our main contribution is an empirical study of UDA to
establish which components of the algorithm confer benefits in NLP. Notably,
although prior work has emphasized the use of clever augmentation techniques
including back-translation, we find that enforcing consistency between
predictions assigned to observed and randomly substituted words often yields
comparable (or greater) benefits compared to these complex perturbation models.
Furthermore, we find that applying its consistency loss affords meaningful
gains without any unlabeled data at all, i.e., in a standard supervised
setting. In short: UDA need not be unsupervised, and does not require complex
data augmentation to be effective.
- Abstract(参考訳): unsupervised data augmentation (uda) は、モデルの予測間の差異をペナライズするために一貫性損失を適用する半教師付き手法である。
(a)観察例(ラベルなし)、及び
(b)データ拡張によって生成された対応する「通知」の例
UDAはテキスト分類で人気を得ているが、どの設計決定が必要か、どのようにメソッドをシーケンシャルなラベリングタスクに拡張するかなど、オープンな質問が飛び交っている。
この手法は最近、テキスト分類に力を入れている。
本稿では,UDAを再検討し,その有効性を示す。
我々の主な貢献は、アルゴリズムのどの要素がNLPの利点を与えるかを確立するためのUDAの実証的研究である。
特に,先行研究ではバックトランスレーションを含む巧妙な補足手法の使用が強調されているが,観察された単語とランダムに置換された単語に割り当てられた予測間の一貫性が,これらの複雑な摂動モデルと同等(あるいはそれ以上)の利益をもたらすことが多い。
さらに,その一貫性を損なうことで,ラベルなしのデータ,すなわち標準的な教師付き設定が不要な有意義な利益が得られることが分かった。
要するに、UDAは教師なしでなくても、複雑なデータ拡張が効果的である必要はない。
関連論文リスト
- Unsupervised Transfer Learning via Adversarial Contrastive Training [3.227277661633986]
対戦型コントラスト学習(ACT)を用いた新しい教師なしトランスファー学習手法を提案する。
実験により, 細調整線形プローブとK-NNプロトコルを用いて, 各種データセットの分類精度に優れることを示した。
論文 参考訳(メタデータ) (2024-08-16T05:11:52Z) - Conditional Semi-Supervised Data Augmentation for Spam Message Detection with Low Resource Data [0.0]
本研究では,データの可用性に欠けるスパム検出モデルに対して,条件付き半教師付きデータ拡張を提案する。
トレーニングデータを拡張するために、ラベルのないデータをデータ拡張に活用する。
潜在変数は、最終分類器の入力としてラベル付きおよびラベルなしのデータから得ることができる。
論文 参考訳(メタデータ) (2024-07-06T07:51:24Z) - Bias Challenges in Counterfactual Data Augmentation [17.568839986755744]
ディープラーニングモデルは、タスクを解くために急激な機能に依存しているため、配布外ロバストではない傾向があります。
反ファクト的データ拡張は、反ファクト的不変な表現を刺激的な特徴にするための一般的な方法を提供する。
本研究は,コンテキストゲスティングマシンによって処理された場合,反ファクトデータ拡張が所望の反ファクトデータ不変性を達成できないことを示す。
論文 参考訳(メタデータ) (2022-09-12T09:17:49Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Semi-Supervised Models via Data Augmentationfor Classifying Interactive
Affective Responses [85.04362095899656]
本稿では、対話型感情応答を分類する半教師付きテキスト分類システムSMDA(Data Augmentation)を提案する。
ラベル付き文に対しては,ラベル分布の均一化と学習過程における教師付き損失の計算のためにデータ拡張を行った。
ラベルなし文に対しては,ラベルなし文に対する低エントロピー予測を擬似ラベルとして検討した。
論文 参考訳(メタデータ) (2020-04-23T05:02:31Z) - MixPUL: Consistency-based Augmentation for Positive and Unlabeled
Learning [8.7382177147041]
本稿では, 整合性正規化に基づく簡易かつ効果的なデータ拡張手法である coinedalgo を提案する。
アルゴインコーポレートは、拡張データを生成するために、教師付きおよび教師なしの一貫性トレーニングを行う。
我々は,CIFAR-10データセットの分類誤差を16.49から13.09まで,それぞれ異なる正のデータ量で平均的に改善したことを示す。
論文 参考訳(メタデータ) (2020-04-20T15:43:33Z) - Generalized ODIN: Detecting Out-of-distribution Image without Learning
from Out-of-distribution Data [87.61504710345528]
我々は,OoD検出性能を改善しつつ,ニューラルネットワークをOoDデータのチューニングから解放する2つの方法を提案する。
具体的には、信頼性スコアリングと修正された入力前処理法を分離することを提案する。
大規模画像データセットのさらなる解析により、セマンティックシフトと非セマンティックシフトの2種類の分布シフトが有意な差を示すことが示された。
論文 参考訳(メタデータ) (2020-02-26T04:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。