論文の概要: Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization
- arxiv url: http://arxiv.org/abs/2404.17768v2
- Date: Sat, 02 Nov 2024 00:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:45:01.313665
- Title: Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization
- Title(参考訳): 簡易バイアス低減のためのトレーニングデータ分布の変更による分布内一般化の改善
- Authors: Dang Nguyen, Paymon Haddad, Eric Gan, Baharan Mirzasoleiman,
- Abstract要約: シャープネスを意識した最小化(SAM)は,特に初期の時代において,異なる特徴をより均一に学習することを示す。
i) トレーニングの早い段階でネットワーク出力に基づいてサンプルをクラスタリングし、(ii) 類似したネットワーク出力を持つサンプルのクラスタを特定し、(iii) 単純さのバイアスを軽減するために、残りのサンプルを1回だけアップサンプリングする手法を提案する。
- 参考スコア(独自算出の注目度): 12.472871440252105
- License:
- Abstract: Can we modify the training data distribution to encourage the underlying optimization method toward finding solutions with superior generalization performance on in-distribution data? In this work, we approach this question for the first time by comparing the inductive bias of gradient descent (GD) with that of sharpness-aware minimization (SAM). By studying a two-layer CNN, we rigorously prove that SAM learns different features more uniformly, particularly in early epochs. That is, SAM is less susceptible to simplicity bias compared to GD. We also show that examples containing features that are learned early are separable from the rest based on the model's output. Based on this observation, we propose a method that (i) clusters examples based on the network output early in training, (ii) identifies a cluster of examples with similar network output, and (iii) upsamples the rest of examples only once to alleviate the simplicity bias. We show empirically that USEFUL effectively improves the generalization performance on the original data distribution when training with various gradient methods, including (S)GD and SAM. Notably, we demonstrate that our method can be combined with SAM variants and existing data augmentation strategies to achieve, to the best of our knowledge, state-of-the-art performance for training ResNet18 on CIFAR10, STL10, CINIC10, Tiny-ImageNet; ResNet34 on CIFAR100; and VGG19 and DenseNet121 on CIFAR10.
- Abstract(参考訳): 分散データ上での一般化性能の優れた解を求めるため、トレーニングデータ分布を変更して、基礎となる最適化手法を奨励できるだろうか?
本研究では,勾配降下(GD)の帰納バイアスとシャープネス認識最小化(SAM)のバイアスを比較することで,この問題に初めてアプローチする。
2層CNNを研究することで、SAMは特に初期の時代において、より均一に異なる特徴を学習できることを厳格に証明する。
つまり、SAMはGDに比べて単純さのバイアスの影響を受けにくい。
また、早期に学習した特徴を含む例は、モデルの出力に基づいて他の例と分離可能であることも示している。
この観測に基づいて,本手法を提案する。
一 トレーニングの早い段階でのネットワーク出力に基づくクラスタの例
(ii)類似のネットワーク出力を持つサンプルのクラスタを特定し、
(iii) 単純さのバイアスを軽減するために、残りの例を1回だけサンプリングする。
我々は, (S)GD や SAM など, 様々な勾配法を用いてトレーニングを行う場合, USEFUL が元のデータ分布の一般化性能を効果的に向上することを示す。
CIFAR10, STL10, CINIC10, Tiny-ImageNetのResNet18, CIFAR100のResNet34, CIFAR10のVGG19とDenseNet121の知識を最大限に活用して, SAMの変種と既存のデータ拡張戦略と組み合わせることで, CIFAR10のResNet18をトレーニングできることを示す。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Simple and effective data augmentation for compositional generalization [64.00420578048855]
MRをサンプリングし,それらを逆翻訳するデータ拡張法は,合成一般化に有効であることを示す。
注目すべきは、一様分布からのサンプリングは、テスト分布からのサンプリングとほぼ同等に実行されることである。
論文 参考訳(メタデータ) (2024-01-18T09:13:59Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - DBN-Mix: Training Dual Branch Network Using Bilateral Mixup Augmentation
for Long-Tailed Visual Recognition [7.94190631530826]
累積学習を必要とせず,DBNの性能を向上させるための簡易かつ効果的な手法を開発した。
提案したDBNアーキテクチャの多数派に対する偏りを緩和するクラス条件温度スケーリングを提案する。
論文 参考訳(メタデータ) (2022-07-05T17:01:27Z) - Open-Sampling: Exploring Out-of-Distribution data for Re-balancing
Long-tailed datasets [24.551465814633325]
深層ニューラルネットワークは通常、トレーニングデータセットが極端なクラス不均衡に苦しむ場合、パフォーマンスが良くない。
近年の研究では、半教師付き方式でアウト・オブ・ディストリビューションデータによる直接トレーニングが一般化性能を損なうことが報告されている。
そこで我々は,オープンセットノイズラベルを用いて学習データセットのクラス前のバランスを再調整する,オープンサンプリングと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-17T14:29:52Z) - POODLE: Improving Few-shot Learning via Penalizing Out-of-Distribution
Samples [19.311470287767385]
そこで本研究では,対象クラス外からのラベル付きサンプルの配布外サンプルを用いて,数発の学習を改善することを提案する。
提案手法は, 実装が簡単で, 特徴抽出器に非依存であり, 事前学習に要する追加コストを伴わず軽量であり, インダクティブ設定とトランスダクティブ設定の両方に適用可能である。
論文 参考訳(メタデータ) (2022-06-08T18:59:21Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Selective Output Smoothing Regularization: Regularize Neural Networks by
Softening Output Distributions [5.725228891050467]
畳み込みニューラルネットワーク(CNN)を学習するための新しい正規化手法であるSelective Output Smoothing Regularizationを提案する。
異なるサンプルからのトレーニングに対する多様な影響にインスパイアされたSelective Output Smoothing Regularizationは、モデルに不正なクラスで同等のロジットを生成するように促すことによって、パフォーマンスを改善する。
このプラグアンドプレイ正規化方法は、余分な手間をかけずに、ほぼすべてのCNNベースのプロジェクトに便利に組み込むことができる。
論文 参考訳(メタデータ) (2021-03-29T07:21:06Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。