論文の概要: On the nonlinear correlation of ML performance between data
subpopulations
- arxiv url: http://arxiv.org/abs/2305.02995v1
- Date: Thu, 4 May 2023 17:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:36:50.117308
- Title: On the nonlinear correlation of ML performance between data
subpopulations
- Title(参考訳): データサブポピュレーション間のML性能の非線形相関について
- Authors: Weixin Liang, Yining Mao, Yongchan Kwon, Xinyu Yang, James Zou
- Abstract要約: サブポピュレーションシフトでは, 分布内(ID)と分布外(OOD)のアキュラシーの相関が増大することが示唆された。
本研究は,異なるサブ集団におけるモデル改良の非線形効果の理解の重要性を強調した。
- 参考スコア(独自算出の注目度): 24.579430688134185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the performance of machine learning (ML) models across diverse
data distributions is critically important for reliable applications. Despite
recent empirical studies positing a near-perfect linear correlation between
in-distribution (ID) and out-of-distribution (OOD) accuracies, we empirically
demonstrate that this correlation is more nuanced under subpopulation shifts.
Through rigorous experimentation and analysis across a variety of datasets,
models, and training epochs, we demonstrate that OOD performance often has a
nonlinear correlation with ID performance in subpopulation shifts. Our
findings, which contrast previous studies that have posited a linear
correlation in model performance during distribution shifts, reveal a "moon
shape" correlation (parabolic uptrend curve) between the test performance on
the majority subpopulation and the minority subpopulation. This non-trivial
nonlinear correlation holds across model architectures, hyperparameters,
training durations, and the imbalance between subpopulations. Furthermore, we
found that the nonlinearity of this "moon shape" is causally influenced by the
degree of spurious correlations in the training data. Our controlled
experiments show that stronger spurious correlation in the training data
creates more nonlinear performance correlation. We provide complementary
experimental and theoretical analyses for this phenomenon, and discuss its
implications for ML reliability and fairness. Our work highlights the
importance of understanding the nonlinear effects of model improvement on
performance in different subpopulations, and has the potential to inform the
development of more equitable and responsible machine learning models.
- Abstract(参考訳): 多様なデータ分布にわたる機械学習(ML)モデルの性能を理解することは、信頼性の高いアプリケーションにとって極めて重要である。
近年の研究では, 分布内(ID)と分布外(OOD)の相関がほぼ完全であるにもかかわらず, この相関がサブポピュレーションシフトの下でよりニュアンス化されていることが実証されている。
我々は,様々なデータセット,モデル,訓練エポシックの厳密な実験と分析を通じて,OOD性能がサブポピュレーションシフトにおけるID性能と非線形な相関を持つことを実証した。
分布シフト中のモデル性能の線形相関を仮定した先行研究とは対照的に,多数個体群におけるテスト性能と少数個体群における「ムーン形状」相関(放物型上昇曲線)を明らかにした。
この非自明な非線形相関は、モデルアーキテクチャ、ハイパーパラメータ、トレーニング期間、サブポピュレーション間の不均衡にまたがる。
さらに,この「ムーン形状」の非線形性は,トレーニングデータにおけるスプリアス相関の程度に因果的に影響されることがわかった。
制御実験により,トレーニングデータにおけるより強いスプリアス相関が,より非線形な性能相関をもたらすことが示された。
本稿では,この現象の相補的実験および理論的解析を行い,MLの信頼性と公平性について考察する。
本研究は,モデル改善の非線形効果が異なる部分集団のパフォーマンスに与える影響を理解することの重要性を強調し,より公平で責任のある機械学習モデルの開発を知らせる可能性を示す。
関連論文リスト
- Random Features Outperform Linear Models: Effect of Strong Input-Label Correlation in Spiked Covariance Data [0.8287206589886879]
入力とラベルの間に高い相関関係があることが,RAMが線形モデルより優れていることを示す。
RFMは,入力とラベルの相関関係の強さに依存する雑音モデルと等価であることを示す。
論文 参考訳(メタデータ) (2024-09-30T12:40:45Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - On the Importance of Feature Separability in Predicting
Out-Of-Distribution Error [25.995311155942016]
そこで本研究では,分布シフト時のテスト精度を推定するために,特徴分散に基づくデータセットレベルスコアを提案する。
本手法は,表現学習における特徴の望ましい特性,すなわちクラス間分散とクラス内コンパクト性に着想を得たものである。
論文 参考訳(メタデータ) (2023-03-27T09:52:59Z) - Causal Inference via Nonlinear Variable Decorrelation for Healthcare
Applications [60.26261850082012]
線形および非線形共振の両方を扱う可変デコリレーション正規化器を用いた新しい手法を提案する。
我々は、モデル解釈可能性を高めるために、元の特徴に基づくアソシエーションルールマイニングを用いた新しい表現として、アソシエーションルールを採用する。
論文 参考訳(メタデータ) (2022-09-29T17:44:14Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Improving Prediction of Cognitive Performance using Deep Neural Networks
in Sparse Data [2.867517731896504]
MIDUS(Midlife in the United States)の観察・コホート研究から得られたデータを用いて,エグゼクティブ機能とエピソード記憶測定をモデル化した。
ディープニューラルネットワーク(DNN)モデルは、認知パフォーマンス予測タスクの中で一貫して最高である。
論文 参考訳(メタデータ) (2021-12-28T22:23:08Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - On Disentangled Representations Learned From Correlated Data [59.41587388303554]
相関データに対する最も顕著な絡み合うアプローチの挙動を解析することにより、現実のシナリオにギャップを埋める。
本研究では,データセットの体系的相関が学習され,潜在表現に反映されていることを示す。
また、トレーニング中の弱い監督や、少数のラベルで事前訓練されたモデルを修正することで、これらの潜伏相関を解消する方法を実証する。
論文 参考訳(メタデータ) (2020-06-14T12:47:34Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。