論文の概要: Data Mixture in Training Un-assures Out-of-Distribution Generalization
- arxiv url: http://arxiv.org/abs/2312.16243v3
- Date: Fri, 2 Feb 2024 04:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:50:28.350167
- Title: Data Mixture in Training Un-assures Out-of-Distribution Generalization
- Title(参考訳): アウトオブディストリビューション一般化を保証しないトレーニングにおけるデータ混合
- Authors: Songming Zhang, Yuxiao Luo, Qizhou Wang, Haoang Chi, Weikai Li, Bo
Han, Jinyan Li
- Abstract要約: モデルの分布外一般化能力の問題について検討する。
以前の証拠は、エラーがトレーニングセットのサイズのパワーとしてオフになることを示している。
トレーニングデータサイズの増加が必ずしもテスト一般化誤差の減少につながるとは限らないことを示す。
- 参考スコア(独自算出の注目度): 23.519013423909417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep neural networks can achieve good performance on in-distribution
samples, their generalization ability significantly degrades under unknown test
shifts. We study the problem of out-of-distribution (OOD) generalization
capability of models by exploring the relationship between generalization error
and training set size. Previous empirical evidence suggests that error falls
off as a power of training set size and that lower errors indicate better model
generalization. However, in the case of OOD samples, this is not true from our
observations. Counterintuitively, increasing training data size does not always
lead to a decrease in test generalization error. Such a non-decreasing
phenomenon is formally investigated under a linear setting with empirical
verification across varying visual benchmarks. To investigate the above
results, we redefine OOD data as data located outside the convex hull of the
data mixture in training and prove a new generalization error bound. Together
our observations highlight that the effectiveness of well-trained models can be
guaranteed on data within the convex hull of the training mixture. For OOD data
beyond this coverage, the capability of models may be unassured. To achieve
better generalization without knowledge of target environments, we demonstrate
multiple strategies including data augmentation and pre-training. We also
employ a novel data selection algorithm that outperforms baselines.
- Abstract(参考訳): ディープニューラルネットワークは分布内サンプルで優れた性能を発揮するが、その一般化能力は未知のテストシフトで著しく低下する。
一般化誤差とトレーニングセットサイズとの関係を探索し, モデル外分布(OOD)一般化能力の問題について検討する。
以前の実証的な証拠は、エラーがトレーニングセットのサイズのパワーとして外れ、低いエラーはより優れたモデル一般化を示すことを示唆している。
しかし、OODサンプルの場合、これは我々の観測では正しくない。
対照的に、トレーニングデータサイズの増加は、必ずしもテスト一般化エラーの減少につながるとは限らない。
このような非減少現象は、様々な視覚的ベンチマークにまたがる経験的検証を伴う線形条件下で公式に研究される。
以上の結果を調べるため,データ混合物の凸殻外にあるデータとしてOODデータを再定義し,新たな一般化誤差を証明した。
以上より, 訓練混合物の凸殻内のデータに対して, 十分に訓練されたモデルの有効性を保証できることを示した。
このカバレッジを超えたOODデータでは、モデルの能力は保証されない可能性がある。
対象環境を知らずにより良い一般化を実現するために,データ拡張や事前学習を含む複数の戦略を実証する。
また、ベースラインを上回る新しいデータ選択アルゴリズムも採用している。
関連論文リスト
- LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different
Views [28.917597757230745]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - On Predicting Generalization using GANs [34.13321525940004]
ディープネットワークの一般化境界の研究は、トレーニングデータセットとネットワークパラメータだけでテストエラーを予測する方法を提供する。
本稿では,GAN(Generative Adversarial Network)を用いて生成した'synthetic data'を用いて,テストエラーを予測できるという考えを考察する。
GANにはよく知られた制限(例えばモード崩壊)があり、データの分布を正確に学ばないことが知られている。
論文 参考訳(メタデータ) (2021-11-28T19:03:21Z) - Linear Regression with Distributed Learning: A Generalization Error
Perspective [0.0]
大規模線形回帰のための分散学習の性能を検討する。
我々は、一般化エラー、すなわち、見当たらないデータのパフォーマンスに焦点を当てる。
その結果、分散ソリューションの一般化誤差は、集中ソリューションの一般化誤差よりも大幅に高いことが示された。
論文 参考訳(メタデータ) (2021-01-22T08:43:28Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z) - The Curious Case of Adversarially Robust Models: More Data Can Help,
Double Descend, or Hurt Generalization [36.87923859576768]
敵対的トレーニングは、入力データの摂動に頑健なモデルを作成する能力を示しているが、通常は標準精度の低下を犠牲にしている。
本稿では, 学習データの増加が, 分類問題における相対的ロバストモデルの一般化を損なうことを示す。
論文 参考訳(メタデータ) (2020-02-25T18:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。