論文の概要: On how to avoid exacerbating spurious correlations when models are
overparameterized
- arxiv url: http://arxiv.org/abs/2206.12739v1
- Date: Sat, 25 Jun 2022 21:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:58:43.429233
- Title: On how to avoid exacerbating spurious correlations when models are
overparameterized
- Title(参考訳): モデル過度パラメータ化時の急激な相関の悪化を回避する方法について
- Authors: Tina Behnia, Ke Wang, Christos Thrampoulidis
- Abstract要約: VS-lossは、たとえスプリアス機能が強いとしても、マイノリティに公平なモデルを学ぶことを示す。
これまでの研究と比較すると、我々の境界はより一般的なモデルであり、それらは漸近的ではなく、極端な不均衡のシナリオにも適用される。
- 参考スコア(独自算出の注目度): 33.315813572333745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterized models fail to generalize well in the presence of data
imbalance even when combined with traditional techniques for mitigating
imbalances. This paper focuses on imbalanced classification datasets, in which
a small subset of the population -- a minority -- may contain features that
correlate spuriously with the class label. For a parametric family of
cross-entropy loss modifications and a representative Gaussian mixture model,
we derive non-asymptotic generalization bounds on the worst-group error that
shed light on the role of different hyper-parameters. Specifically, we prove
that, when appropriately tuned, the recently proposed VS-loss learns a model
that is fair towards minorities even when spurious features are strong. On the
other hand, alternative heuristics, such as the weighted CE and the LA-loss,
can fail dramatically. Compared to previous works, our bounds hold for more
general models, they are non-asymptotic, and, they apply even at scenarios of
extreme imbalance.
- Abstract(参考訳): 過パラメータ化モデルは、従来の不均衡緩和技術と組み合わせても、データ不均衡の存在下でうまく一般化できない。
本稿では,人口のごく一部(少数派)が,クラスラベルと突発的に相関する特徴を含む不均衡な分類データセットに焦点を当てた。
クロスエントロピー損失修正のパラメトリック族と代表的なガウス混合モデルに対し、異なるハイパーパラメータの役割に光を当てた最悪のグループ誤差に基づく非漸近一般化境界を導出する。
特に、適切に調整された場合、最近提案されたVS-lossは、スプリアス機能が強い場合でも、マイノリティに公平なモデルを学ぶ。
一方、重み付きCEやLAロスのような代替ヒューリスティックは劇的に失敗する可能性がある。
以前の作品と比較して、我々の境界はより一般的なモデルであり、非漸近的であり、極端な不均衡のシナリオでも適用できる。
関連論文リスト
- Aliasing and Label-Independent Decomposition of Risk: Beyond the bias-variance trade-off [0.0]
データサイエンスの中心的な問題は、潜在的にノイズの多いサンプルを使用して、目に見えない入力の関数値を予測することである。
一般化エイリアス分解(GAD)と呼ばれる代替パラダイムを導入する。
GADは、データラベルを見ることなく、モデルクラスとサンプルの関係から明示的に計算することができる。
論文 参考訳(メタデータ) (2024-08-15T17:49:24Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - On the Implicit Geometry of Cross-Entropy Parameterizations for
Label-Imbalanced Data [26.310275682709776]
ラベインバランスデータの重み付きCE大モデルに代わるものとして,クロスエントロピー(CE)損失のロジット調整パラメータ化が提案されている。
マイノリティ不均衡比に関係なく,ロジット調整パラメータ化を適切に調整して学習することができることを示す。
論文 参考訳(メタデータ) (2023-03-14T03:04:37Z) - The Unbearable Weight of Massive Privilege: Revisiting Bias-Variance
Trade-Offs in the Context of Fair Prediction [7.975779552420981]
単一モデルによるトレードオフを改善することを目的とした条件付きid(ciid)モデルを提案する。
我々は、CompASおよびフォークテーブルデータセット上で、我々の設定を実証的にテストする。
分析の結果,条件付きモデルが好まれる原則的手順や具体的な実世界のユースケースが存在する可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-17T05:34:35Z) - Bias-inducing geometries: an exactly solvable data model with fairness
implications [13.690313475721094]
我々は、正確に解決可能なデータ不均衡の高次元モデルを導入する。
この合成フレームワークで訓練された学習モデルの典型的特性を解析的に解き放つ。
フェアネス評価によく用いられる観測対象の正確な予測値を得る。
論文 参考訳(メタデータ) (2022-05-31T16:27:57Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Memorizing without overfitting: Bias, variance, and interpolation in
over-parameterized models [0.0]
バイアス分散トレードオフは教師あり学習における中心的な概念である。
現代のDeep Learningメソッドは、最先端のパフォーマンスを達成するために、このドグマを浮かび上がらせる。
論文 参考訳(メタデータ) (2020-10-26T22:31:04Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。