論文の概要: Towards Understanding the Data Dependency of Mixup-style Training
- arxiv url: http://arxiv.org/abs/2110.07647v1
- Date: Thu, 14 Oct 2021 18:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 12:34:36.390358
- Title: Towards Understanding the Data Dependency of Mixup-style Training
- Title(参考訳): ミックスアップ型トレーニングのデータ依存度理解に向けて
- Authors: Muthu Chidambaram, Xiang Wang, Yuzheng Hu, Chenwei Wu, Rong Ge
- Abstract要約: Mixupトレーニングパラダイムでは、データポイントと関連するラベルの凸組み合わせを使用してモデルをトレーニングする。
トレーニング中に真のデータポイントはほとんどないが、Mixupを使ってトレーニングされたモデルは、元の経験的リスクを最小限に抑えているようだ。
線形モデルと線形分離可能なデータセットの大規模なクラスでは、Mixupトレーニングは標準トレーニングと同じ分類器を学習する。
- 参考スコア(独自算出の注目度): 14.803285140800542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the Mixup training paradigm, a model is trained using convex combinations
of data points and their associated labels. Despite seeing very few true data
points during training, models trained using Mixup seem to still minimize the
original empirical risk and exhibit better generalization and robustness on
various tasks when compared to standard training. In this paper, we investigate
how these benefits of Mixup training rely on properties of the data in the
context of classification. For minimizing the original empirical risk, we
compute a closed form for the Mixup-optimal classification, which allows us to
construct a simple dataset on which minimizing the Mixup loss can provably lead
to learning a classifier that does not minimize the empirical loss on the data.
On the other hand, we also give sufficient conditions for Mixup training to
also minimize the original empirical risk. For generalization, we characterize
the margin of a Mixup classifier, and use this to understand why the decision
boundary of a Mixup classifier can adapt better to the full structure of the
training data when compared to standard training. In contrast, we also show
that, for a large class of linear models and linearly separable datasets, Mixup
training leads to learning the same classifier as standard training.
- Abstract(参考訳): mixupトレーニングパラダイムでは、モデルはデータポイントと関連するラベルの凸の組み合わせを使ってトレーニングされる。
トレーニング中の真のデータポイントはごくわずかだが、mixupを使ってトレーニングされたモデルは、元の経験的リスクを最小化し、標準的なトレーニングと比べて、さまざまなタスクにおいてより一般化し、堅牢性を示すように見える。
本稿では,これらのミックスアップ訓練の利点が,分類の文脈におけるデータの性質に依存するかを検討する。
元の経験的リスクを最小化するために、mixup-optimal分類のためのクローズドフォームを計算し、ミックスアップ損失を最小化することで、データの経験的損失を最小化しない分類器を学習できる単純なデータセットを構築することができる。
一方,ミックスアップトレーニングでは,経験的リスクを最小限に抑えるのに十分な条件も与える。
一般化のために、mixup分類器のマージンを特徴付け、これを用いて、mixup分類器の決定境界が標準トレーニングと比較してトレーニングデータの全体構造に適合する理由を理解する。
対照的に,線形モデルと線形分離データセットの大規模なクラスでは,ミックスアップトレーニングが標準トレーニングと同じ分類器を学習することにつながることも示されている。
関連論文リスト
- Scalable Data Ablation Approximations for Language Models through Modular Training and Merging [27.445079398772904]
本稿では,学習コーパスのサブセット上で個々のモデルを訓練するデータ短縮を効果的に近似する方法を提案する。
任意の評価セットが与えられた場合、候補データに基づいてトレーニングされた単一モデルのパープレキシティスコアは、そのデータの異なる分割に基づいてトレーニングされたモデルのパラメータ平均のパープレキシティスコアと強く相関していることが分かる。
論文 参考訳(メタデータ) (2024-10-21T06:03:49Z) - RC-Mixup: A Data Augmentation Strategy against Noisy Data for Regression Tasks [27.247270530020664]
本研究では,ノイズの多いデータの存在下での回帰作業におけるロバストなデータ拡張の問題について検討する。
C-Mixupは、レグレッションパフォーマンスを改善するためにラベル距離に基づいてサンプルを混合する、より選択的である。
本稿では,C-Mixupとマルチラウンドロバストな学習手法を密接に統合し,シナジスティックな効果を示すRC-Mixupを提案する。
論文 参考訳(メタデータ) (2024-05-28T08:02:42Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - The Benefits of Mixup for Feature Learning [117.93273337740442]
最初に、機能やラベルに異なる線形パラメータを使用するMixupは、標準Mixupと同様のパフォーマンスが得られることを示す。
我々は、特徴雑音データモデルを検討し、Mixupトレーニングが共通の特徴と組み合わせることで、稀な特徴を効果的に学習できることを示します。
対照的に、標準的なトレーニングは共通の特徴しか学べないが、まれな特徴を学べないため、パフォーマンスが悪くなる。
論文 参考訳(メタデータ) (2023-03-15T08:11:47Z) - Over-training with Mixup May Hurt Generalization [32.64382185990981]
今回,Mixupトレーニングの既往の現象を報告する。
多くの標準データセットにおいて、Mixupトレーニングモデルの性能は、多くのエポックのトレーニング後に低下し始めます。
理論的には、Mixupトレーニングは、不要なデータ依存ラベルノイズを合成データに導入する可能性がある。
論文 参考訳(メタデータ) (2023-03-02T18:37:34Z) - Provably Learning Diverse Features in Multi-View Data with Midpoint Mixup [14.37428912254029]
Mixupは、データポイントとラベルのランダムな凸組み合わせを使用したトレーニングに依存する、データ拡張技術である。
各クラスが複数の関連する特徴(あるいはビュー)を持ち、クラスを正しく予測できるような分類問題に焦点をあてる。
実験的リスク最小化を用いた2層畳み込みネットワークの学習は, クラス毎に2つの特徴を持つ非自明なデータ分布のクラスでは, ほぼすべてのクラスで1つの特徴しか学習できない一方で, Mixup の特定のインスタンス化による学習は各クラスで2つの特徴の学習に成功していることを示す。
論文 参考訳(メタデータ) (2022-10-24T18:11:37Z) - BiFair: Training Fair Models with Bilevel Optimization [8.2509884277533]
我々は,ユーティリティの最小化と公正な関心の喪失を両立させる,BiFairという新しいトレーニングアルゴリズムを開発した。
我々のアルゴリズムは、常により良い性能、すなわち、与えられた公正度メトリックのより優れた値、あるいはより高い精度で到達する。
論文 参考訳(メタデータ) (2021-06-03T22:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。