論文の概要: How Effective is Task-Agnostic Data Augmentation for Pretrained
Transformers?
- arxiv url: http://arxiv.org/abs/2010.01764v1
- Date: Mon, 5 Oct 2020 03:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:44:04.747637
- Title: How Effective is Task-Agnostic Data Augmentation for Pretrained
Transformers?
- Title(参考訳): プリトレーニングトランスフォーマーのタスク非依存データ拡張はどの程度効果的か?
- Authors: Shayne Longpre and Yu Wang and Christopher DuBois
- Abstract要約: タスクに依存しないデータ拡張は、事前訓練されたモデルでもコンピュータビジョンにおいて広く有効であることが証明されている。
事前訓練されたトランスフォーマーに適用した場合、これらのテクニックが本当に有効か尋ねる。
非事前学習モデルに対する強い改善を報告した手法は、事前学習した変換器の性能を一貫して改善することができない。
- 参考スコア(独自算出の注目度): 7.727662147015879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-agnostic forms of data augmentation have proven widely effective in
computer vision, even on pretrained models. In NLP similar results are reported
most commonly for low data regimes, non-pretrained models, or situationally for
pretrained models. In this paper we ask how effective these techniques really
are when applied to pretrained transformers. Using two popular varieties of
task-agnostic data augmentation (not tailored to any particular task), Easy
Data Augmentation (Wei and Zou, 2019) and Back-Translation (Sennrichet al.,
2015), we conduct a systematic examination of their effects across 5
classification tasks, 6 datasets, and 3 variants of modern pretrained
transformers, including BERT, XLNet, and RoBERTa. We observe a negative result,
finding that techniques which previously reported strong improvements for
non-pretrained models fail to consistently improve performance for pretrained
transformers, even when training data is limited. We hope this empirical
analysis helps inform practitioners where data augmentation techniques may
confer improvements.
- Abstract(参考訳): タスクに依存しないデータ拡張は、事前訓練されたモデルでもコンピュータビジョンにおいて広く有効であることが証明されている。
NLPでは、同様の結果が最もよく報告されるのは、低いデータ構造、非事前学習モデル、または事前学習モデルである。
本稿では,事前学習したトランスに適用した場合,これらの手法がどの程度有効か尋ねる。
タスクに依存しないデータ拡張(特定のタスクに合わせたものではない)、簡単なデータ拡張(wei and zou, 2019)、そしてバックトランスレーション(sennrichet al., 2015)の2つの一般的な種類を用いて、5つの分類タスク、6つのデータセット、そしてbert、xlnet、robertaを含む最新のプリトレーニングトランスフォーマの3つのバリエーションを体系的に検討する。
トレーニングデータに制限がある場合でも,非事前学習モデルに対して強い改善を報告した手法は,事前学習したトランスフォーマーの性能を一貫して改善することができない。
この経験的分析が、データ拡張技術が改善をもたらす可能性がある実践者への情報提供に役立つことを願っています。
関連論文リスト
- Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - FaultFormer: Pretraining Transformers for Adaptable Bearing Fault Classification [7.136205674624813]
本稿では,トランスモデルに基づく自己教師型事前学習および微調整フレームワークを提案する。
特に、最先端のアキュラシーに到達するための異なるトークン化とデータ拡張戦略について検討する。
このパラダイムでは、異なるベアリング、障害、機械からラベル付けされていないデータに基づいてモデルを事前訓練し、新しいデータスカースアプリケーションに素早くデプロイすることが可能になる。
論文 参考訳(メタデータ) (2023-12-04T22:51:02Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Continual Pre-Training of Large Language Models: How to (re)warm your
model? [21.8468835868142]
大規模言語モデル(LLM)はトークン上で定期的に事前訓練されるが、新しいデータが利用可能になると再起動する。
我々は,SlimPajama(下流データ,297Bトークン)の事前トレーニングを続けながら,パイル(上流データ,300Bトークン)で事前訓練されたモデルのウォームアップフェーズについて検討した。
以上の結果から,上流データと下流データの損失は再温暖化によって増大するが,より長い実行でダウンストリームのパフォーマンスが向上し,大規模なダウンストリームデータセットに対して10億ドルからトレーニングしたモデルよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-08-08T03:18:18Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Revisiting the Updates of a Pre-trained Model for Few-shot Learning [11.871523410051527]
我々は2つの人気のある更新手法、微調整と線形探索を比較した。
試料数の増加に伴い, 微調整は線形探索より優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T08:47:06Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z) - Gradient-Based Adversarial Training on Transformer Networks for
Detecting Check-Worthy Factual Claims [3.7543966923106438]
本稿では,最初の逆正則変換型クレームスポッタモデルを提案する。
現在の最先端モデルよりもF1スコアが4.70ポイント向上した。
本稿では,変換器モデルに逆学習を適用する手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T16:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。