論文の概要: A Data Cartography based MixUp for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2205.03403v1
- Date: Fri, 6 May 2022 17:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:28:32.647378
- Title: A Data Cartography based MixUp for Pre-trained Language Models
- Title(参考訳): データカルトグラフィーに基づく事前学習言語モデルのためのMixUp
- Authors: Seo Yeon Park and Cornelia Caragea
- Abstract要約: MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
- 参考スコア(独自算出の注目度): 47.90235939359225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MixUp is a data augmentation strategy where additional samples are generated
during training by combining random pairs of training samples and their labels.
However, selecting random pairs is not potentially an optimal choice. In this
work, we propose TDMixUp, a novel MixUp strategy that leverages Training
Dynamics and allows more informative samples to be combined for generating new
data samples. Our proposed TDMixUp first measures confidence, variability,
(Swayamdipta et al., 2020), and Area Under the Margin (AUM) (Pleiss et al.,
2020) to identify the characteristics of training samples (e.g., as
easy-to-learn or ambiguous samples), and then interpolates these characterized
samples. We empirically validate that our method not only achieves competitive
performance using a smaller subset of the training data compared with strong
baselines, but also yields lower expected calibration error on the pre-trained
language model, BERT, on both in-domain and out-of-domain settings in a wide
range of NLP tasks. We publicly release our code.
- Abstract(参考訳): MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
しかし、ランダムペアの選択は最適な選択ではない。
本研究では,トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案したTDMixUpは,まず信頼性,変動性(Swayamdipta et al., 2020),およびAUM(Pleiss et al., 2020)を用いて,トレーニングサンプルの特性(例えば,学習し易い試料やあいまいな試料)を同定し,それらの特徴を補間する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
コードを公開しています。
関連論文リスト
- Score-of-Mixture Training: Training One-Step Generative Models Made Simple via Score Estimation of Mixture Distributions [3.347388046213879]
本稿では,一段階生成モデルの学習のための新しいフレームワークであるSMTを提案する。
SMTは、複数のノイズレベルにわたる実検体と偽検体の混合分布のスコアを推定する。
提案手法は,Score-of-Mixture Distillation (SMD)と呼ばれる事前学習拡散モデルを用いて,スクラッチ(SMT)と蒸留の両方のトレーニングを支援する。
論文 参考訳(メタデータ) (2025-02-13T18:57:20Z) - Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。
テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T23:02:26Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Balanced Data Sampling for Language Model Training with Clustering [96.46042695333655]
本稿では,学習データのテキスト分布のバランスをとるためにClusterClip Smplingを提案する。
大規模な実験は、ClusterClip Smplingの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-22T13:20:53Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Debiased Sample Selection for Combating Noisy Labels [24.296451733127956]
サンプル選択におけるバイアス学習のためのnoIse-Tolerant Expert Model (ITEM)を提案する。
具体的には、トレーニングバイアスを軽減するために、複数の専門家と統合した堅牢なネットワークアーキテクチャを設計します。
2つのクラス識別型ミニバッチの混合によるトレーニングにより、モデルが不均衡なトレーニングセットの効果を緩和する。
論文 参考訳(メタデータ) (2024-01-24T10:37:28Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - DE-CROP: Data-efficient Certified Robustness for Pretrained Classifiers [21.741026088202126]
そこで本研究では,いくつかのトレーニングサンプルを用いて,事前学習したモデルのロバスト性を証明する新しい手法を提案する。
提案手法は,各トレーニングサンプルに対応するクラス境界および補間標本を生成する。
複数のベンチマークデータセットのベースラインに対する大幅な改善と、課題のあるブラックボックス設定の下でも同様のパフォーマンスを報告しています。
論文 参考訳(メタデータ) (2022-10-17T10:41:18Z) - SMILE: Self-Distilled MIxup for Efficient Transfer LEarning [42.59451803498095]
本研究では, SMILE-Self-Distilled Mixup for EffIcient Transfer LEarningを提案する。
混合画像を入力として、SMILEはCNN特徴抽出器の出力を正規化し、入力の混合特徴ベクトルから学習する。
トリプルレギュラライザーは、特徴空間とラベル空間の両方で混合効果のバランスをとりながら、前訓練タスクのサンプル間の線形性をバインドします。
論文 参考訳(メタデータ) (2021-03-25T16:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。