論文の概要: Over-training with Mixup May Hurt Generalization
- arxiv url: http://arxiv.org/abs/2303.01475v1
- Date: Thu, 2 Mar 2023 18:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 12:56:20.302712
- Title: Over-training with Mixup May Hurt Generalization
- Title(参考訳): Mixup May Hurt Generalizationによるオーバートレーニング
- Authors: Zixuan Liu, Ziqiao Wang, Hongyu Guo, Yongyi Mao
- Abstract要約: 今回,Mixupトレーニングの既往の現象を報告する。
多くの標準データセットにおいて、Mixupトレーニングモデルの性能は、多くのエポックのトレーニング後に低下し始めます。
理論的には、Mixupトレーニングは、不要なデータ依存ラベルノイズを合成データに導入する可能性がある。
- 参考スコア(独自算出の注目度): 32.64382185990981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixup, which creates synthetic training instances by linearly interpolating
random sample pairs, is a simple and yet effective regularization technique to
boost the performance of deep models trained with SGD. In this work, we report
a previously unobserved phenomenon in Mixup training: on a number of standard
datasets, the performance of Mixup-trained models starts to decay after
training for a large number of epochs, giving rise to a U-shaped generalization
curve. This behavior is further aggravated when the size of original dataset is
reduced. To help understand such a behavior of Mixup, we show theoretically
that Mixup training may introduce undesired data-dependent label noises to the
synthesized data. Via analyzing a least-square regression problem with a random
feature model, we explain why noisy labels may cause the U-shaped curve to
occur: Mixup improves generalization through fitting the clean patterns at the
early training stage, but as training progresses, Mixup becomes over-fitting to
the noise in the synthetic data. Extensive experiments are performed on a
variety of benchmark datasets, validating this explanation.
- Abstract(参考訳): ランダムなサンプルペアを線形補間することで合成トレーニングインスタンスを生成するMixupは、SGDでトレーニングされた深層モデルの性能を高めるための、シンプルで効果的な正規化手法である。
本研究では,Mixupトレーニングにおいてこれまで観測されていなかった現象を報告する。多くの標準データセットにおいて,Mixupトレーニングモデルの性能は,多数のエポックに対するトレーニング後に低下し,U字型一般化曲線が生じる。
この挙動は、元のデータセットのサイズが小さくなるとさらに悪化する。
このようなミックスアップの挙動を理解するために,ミックスアップ学習が不要なデータ依存ラベルノイズを合成データに導入することを理論的に示す。
ランダムな特徴モデルを用いて最小二乗回帰問題を解析することにより、ノイズラベルがU字曲線を生じさせる理由を説明できる: 混合は、初期のトレーニング段階でクリーンパターンを適合させることにより一般化を改善するが、訓練が進むにつれて、混合は合成データのノイズに過度に適合する。
様々なベンチマークデータセットで広範な実験が行われ、この説明を検証する。
関連論文リスト
- RC-Mixup: A Data Augmentation Strategy against Noisy Data for Regression Tasks [27.247270530020664]
本研究では,ノイズの多いデータの存在下での回帰作業におけるロバストなデータ拡張の問題について検討する。
C-Mixupは、レグレッションパフォーマンスを改善するためにラベル距離に基づいてサンプルを混合する、より選択的である。
本稿では,C-Mixupとマルチラウンドロバストな学習手法を密接に統合し,シナジスティックな効果を示すRC-Mixupを提案する。
論文 参考訳(メタデータ) (2024-05-28T08:02:42Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Mixup Your Own Pairs [22.882694278940598]
我々は、回帰に対する対照的な学習の可能性は、2つの重要な側面(常性認識と硬さ)を無視しているため、隠蔽されていると論じる。
具体的には,Mix(SupReMix)を用いた回帰学習における教師付きコントラスト学習を提案する。
アンカー・インクルージョン混合物(アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン混合物、アンカー・インクルージョン
論文 参考訳(メタデータ) (2023-09-28T17:38:59Z) - Solving Inverse Problems with Score-Based Generative Priors learned from
Noisy Data [1.7969777786551424]
SURE-Scoreは、加法ガウス雑音で劣化したトレーニングサンプルを用いてスコアベースの生成モデルを学習するためのアプローチである。
2つの実践的応用において,SURE-Scoreの事前学習と逆問題に対する後続サンプリングの適用による一般化を実証する。
論文 参考訳(メタデータ) (2023-05-02T02:51:01Z) - C-Mixup: Improving Generalization in Regression [71.10418219781575]
混合アルゴリズムは、一対の例とその対応するラベルを線形補間することによって一般化を改善する。
ラベルの類似度に基づいてサンプリング確率を調整するC-Mixupを提案する。
C-Mixupは6.56%、4.76%、5.82%の改善、タスクの一般化、アウト・オブ・ディストリビューションの堅牢性を実現している。
論文 参考訳(メタデータ) (2022-10-11T20:39:38Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Towards Understanding the Data Dependency of Mixup-style Training [14.803285140800542]
Mixupトレーニングパラダイムでは、データポイントと関連するラベルの凸組み合わせを使用してモデルをトレーニングする。
トレーニング中に真のデータポイントはほとんどないが、Mixupを使ってトレーニングされたモデルは、元の経験的リスクを最小限に抑えているようだ。
線形モデルと線形分離可能なデータセットの大規模なクラスでは、Mixupトレーニングは標準トレーニングと同じ分類器を学習する。
論文 参考訳(メタデータ) (2021-10-14T18:13:57Z) - MixRL: Data Mixing Augmentation for Regression using Reinforcement
Learning [2.1345682889327837]
データ拡張のための既存のテクニックは、主に分類タスクに焦点を当てており、回帰タスクに簡単には適用できない。
その結果,大容量データとラベル距離の混合がモデル性能に悪影響を及ぼす可能性が示唆された。
そこで本研究では,データ拡張メタ学習フレームワークであるMixRLを提案する。
論文 参考訳(メタデータ) (2021-06-07T07:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。