論文の概要: A Data Cartography based MixUp for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2205.03403v1
- Date: Fri, 6 May 2022 17:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-05-09 13:28:32.647378
- Title: A Data Cartography based MixUp for Pre-trained Language Models
- Title(参考訳): データカルトグラフィーに基づく事前学習言語モデルのためのMixUp
- Authors: Seo Yeon Park and Cornelia Caragea
- Abstract要約: MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
- 参考スコア(独自算出の注目度): 47.90235939359225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MixUp is a data augmentation strategy where additional samples are generated
during training by combining random pairs of training samples and their labels.
However, selecting random pairs is not potentially an optimal choice. In this
work, we propose TDMixUp, a novel MixUp strategy that leverages Training
Dynamics and allows more informative samples to be combined for generating new
data samples. Our proposed TDMixUp first measures confidence, variability,
(Swayamdipta et al., 2020), and Area Under the Margin (AUM) (Pleiss et al.,
2020) to identify the characteristics of training samples (e.g., as
easy-to-learn or ambiguous samples), and then interpolates these characterized
samples. We empirically validate that our method not only achieves competitive
performance using a smaller subset of the training data compared with strong
baselines, but also yields lower expected calibration error on the pre-trained
language model, BERT, on both in-domain and out-of-domain settings in a wide
range of NLP tasks. We publicly release our code.
- Abstract(参考訳): MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
しかし、ランダムペアの選択は最適な選択ではない。
本研究では,トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案したTDMixUpは,まず信頼性,変動性(Swayamdipta et al., 2020),およびAUM(Pleiss et al., 2020)を用いて,トレーニングサンプルの特性(例えば,学習し易い試料やあいまいな試料)を同定し,それらの特徴を補間する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
コードを公開しています。
関連論文リスト
- CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity [36.9096162214815]
大規模言語モデル(LLM)の既存の事前学習データ混合手法は、一般的にドメインワイドな方法論に従う。
ボトムアップパラダイムに基づく新しいサンプルワイドデータ混合手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T13:22:11Z) - Mixtera: A Data Plane for Foundation Model Training [1.797352319167759]
基礎モデルトレーニングのためのデータプレーンであるMixteraを構築、提示します。
Mixteraはトレーニングをボトルネックにせず、256GH200スーパーチップにスケールする。
また、視覚言語モデルにおける混合の役割についても検討する。
論文 参考訳(メタデータ) (2025-02-27T05:55:44Z) - Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。
テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T23:02:26Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Balanced Data Sampling for Language Model Training with Clustering [96.46042695333655]
本稿では,学習データのテキスト分布のバランスをとるためにClusterClip Smplingを提案する。
大規模な実験は、ClusterClip Smplingの有効性を検証する。
論文 参考訳(メタデータ) (2024-02-22T13:20:53Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Debiased Sample Selection for Combating Noisy Labels [24.296451733127956]
サンプル選択におけるバイアス学習のためのnoIse-Tolerant Expert Model (ITEM)を提案する。
具体的には、トレーニングバイアスを軽減するために、複数の専門家と統合した堅牢なネットワークアーキテクチャを設計します。
2つのクラス識別型ミニバッチの混合によるトレーニングにより、モデルが不均衡なトレーニングセットの効果を緩和する。
論文 参考訳(メタデータ) (2024-01-24T10:37:28Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - DE-CROP: Data-efficient Certified Robustness for Pretrained Classifiers [21.741026088202126]
そこで本研究では,いくつかのトレーニングサンプルを用いて,事前学習したモデルのロバスト性を証明する新しい手法を提案する。
提案手法は,各トレーニングサンプルに対応するクラス境界および補間標本を生成する。
複数のベンチマークデータセットのベースラインに対する大幅な改善と、課題のあるブラックボックス設定の下でも同様のパフォーマンスを報告しています。
論文 参考訳(メタデータ) (2022-10-17T10:41:18Z) - SMILE: Self-Distilled MIxup for Efficient Transfer LEarning [42.59451803498095]
本研究では, SMILE-Self-Distilled Mixup for EffIcient Transfer LEarningを提案する。
混合画像を入力として、SMILEはCNN特徴抽出器の出力を正規化し、入力の混合特徴ベクトルから学習する。
トリプルレギュラライザーは、特徴空間とラベル空間の両方で混合効果のバランスをとりながら、前訓練タスクのサンプル間の線形性をバインドします。
論文 参考訳(メタデータ) (2021-03-25T16:02:21Z) - DST: Data Selection and joint Training for Learning with Noisy Labels [11.0375827306207]
データ選択と共同トレーニング(DST)法を提案し、正確なアノテーションでトレーニングサンプルを自動的に選択します。
各イテレーションにおいて、正しいラベル付きラベルと予測されたラベルは、混合モデルからの確率によってそれぞれ重み付けされる。
CIFAR-10、CIFAR-100、Clothing1Mの実験では、DSTは最先端の手法に匹敵するか、優れていることを示した。
論文 参考訳(メタデータ) (2021-03-01T07:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。