論文の概要: MixUp Training Leads to Reduced Overfitting and Improved Calibration for
the Transformer Architecture
- arxiv url: http://arxiv.org/abs/2102.11402v1
- Date: Mon, 22 Feb 2021 23:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 00:52:17.210073
- Title: MixUp Training Leads to Reduced Overfitting and Improved Calibration for
the Transformer Architecture
- Title(参考訳): MixUpトレーニングはトランスフォーマーアーキテクチャのオーバーフィッティングとキャリブレーションを改善する
- Authors: Wancong Zhang, Ieshan Vaidya
- Abstract要約: mixupは、入力データとそのラベルの凸一般化を用いてトレーニング中のモデルを強化するコンピュータビジョンデータ拡張技術である。
本研究では,トランスの入力,マニホールド,文埋め込みレベルでのMixUp法を提案し,さまざまなNLUタスクに対してBERTモデルを微調整する。
mixupはモデルのパフォーマンスを向上し、テスト損失とモデルのキャリブレーションエラーを最大50%削減できることが分かりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MixUp is a computer vision data augmentation technique that uses convex
interpolations of input data and their labels to enhance model generalization
during training. However, the application of MixUp to the natural language
understanding (NLU) domain has been limited, due to the difficulty of
interpolating text directly in the input space. In this study, we propose MixUp
methods at the Input, Manifold, and sentence embedding levels for the
transformer architecture, and apply them to finetune the BERT model for a
diverse set of NLU tasks. We find that MixUp can improve model performance, as
well as reduce test loss and model calibration error by up to 50%.
- Abstract(参考訳): MixUpは、入力データとそのラベルの凸補間を使用してトレーニング中のモデル一般化を強化するコンピュータビジョンデータ拡張技術です。
しかし、入力空間に直接テキストを補間することは困難であるため、自然言語理解(NLU)ドメインへのMixUpの適用は制限されている。
本研究では,トランスアーキテクチャにおける入力,マニホールド,文埋め込みレベルでのMixUp法を提案し,さまざまなNLUタスクに対してBERTモデルを微調整する。
mixupはモデルのパフォーマンスを向上し、テスト損失とモデルのキャリブレーションエラーを最大50%削減できることが分かりました。
関連論文リスト
- Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Tailoring Mixup to Data for Calibration [12.050401897136501]
Mixupはキャリブレーションと予測の不確実性を改善する技術である。
この研究では、データ間の距離が混合されるにつれて、多様体の侵入の可能性が増加することを論じる。
本研究では, 混合する試料間の類似度に応じて, 係数の基底分布を動的に変化させることを提案する。
論文 参考訳(メタデータ) (2023-11-02T17:48:28Z) - MixupE: Understanding and Improving Mixup from Directional Derivative
Perspective [86.06981860668424]
理論上は、バニラ・ミックスアップよりも優れた一般化性能を実現するために、Mixupの改良版を提案する。
提案手法は,様々なアーキテクチャを用いて,複数のデータセットにまたがるMixupを改善した。
論文 参考訳(メタデータ) (2022-12-27T07:03:52Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - On the Calibration of Pre-trained Language Models using Mixup Guided by
Area Under the Margin and Saliency [47.90235939359225]
モデルキャリブレーションをさらに改善する事前学習型言語モデルのための新しい混合戦略を提案する。
本手法は,ドメイン内およびドメイン外テストサンプルの強いベースラインと比較して,最小のキャリブレーション誤差を実現する。
論文 参考訳(メタデータ) (2022-03-14T23:45:08Z) - Preventing Manifold Intrusion with Locality: Local Mixup [10.358087436626391]
Mixupは、入力サンプルと関連する出力を線形に補間するデータ依存の正規化技術である。
本稿では、損失を計算する際に、遠方の入力サンプルを重み付けするローカル・ミックスアップを提案する。
論文 参考訳(メタデータ) (2022-01-12T09:05:53Z) - ReMix: Towards Image-to-Image Translation with Limited Data [154.71724970593036]
本稿では,この問題に対処するためのデータ拡張手法(ReMix)を提案する。
特徴レベルでのトレーニングサンプルを補間し、サンプル間の知覚的関係に基づく新しいコンテンツ損失を提案します。
提案手法は, 生成のあいまいさを効果的に低減し, コンテンツ保存結果を生成する。
論文 参考訳(メタデータ) (2021-03-31T06:24:10Z) - When and How Mixup Improves Calibration [19.11486078732542]
多くの機械学習アプリケーションでは、モデルが予測の不確実性を正確に把握する信頼スコアを提供することが重要である。
本論文では,Mixupが2つの自然データモデルを用いてテキスト次元設定のキャリブレーションを改善することを理論的に証明する。
ラベルのないデータを組み込むことでモデルの校正が低下することもあるが、ミックスアップトレーニングを追加することで校正が改善される。
論文 参考訳(メタデータ) (2021-02-11T22:24:54Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。