論文の概要: Simplicity Bias Leads to Amplified Performance Disparities
- arxiv url: http://arxiv.org/abs/2212.06641v2
- Date: Thu, 8 Jun 2023 13:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 20:11:51.735876
- Title: Simplicity Bias Leads to Amplified Performance Disparities
- Title(参考訳): シンプルさのバイアスがパフォーマンスの格差を増幅する
- Authors: Samuel J. Bell and Levent Sagun
- Abstract要約: SGDで訓練されたモデルは、単純さに偏りがあることを示し、多数派の学習を優先させる。
モデルは、単純なデータセットのクラスやグループを優先順位付けし、複雑なものを見つけることを犠牲にすることができる。
- 参考スコア(独自算出の注目度): 8.60453031364566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Which parts of a dataset will a given model find difficult? Recent work has
shown that SGD-trained models have a bias towards simplicity, leading them to
prioritize learning a majority class, or to rely upon harmful spurious
correlations. Here, we show that the preference for "easy" runs far deeper: A
model may prioritize any class or group of the dataset that it finds simple-at
the expense of what it finds complex-as measured by performance difference on
the test set. When subsets with different levels of complexity align with
demographic groups, we term this difficulty disparity, a phenomenon that occurs
even with balanced datasets that lack group/label associations. We show how
difficulty disparity is a model-dependent quantity, and is further amplified in
commonly-used models as selected by typical average performance scores. We
quantify an amplification factor across a range of settings in order to compare
disparity of different models on a fixed dataset. Finally, we present two
real-world examples of difficulty amplification in action, resulting in
worse-than-expected performance disparities between groups even when using a
balanced dataset. The existence of such disparities in balanced datasets
demonstrates that merely balancing sample sizes of groups is not sufficient to
ensure unbiased performance. We hope this work presents a step towards
measurable understanding of the role of model bias as it interacts with the
structure of data, and call for additional model-dependent mitigation methods
to be deployed alongside dataset audits.
- Abstract(参考訳): データセットのどの部分が、与えられたモデルを困難に感じるのか?
最近の研究により、sgd訓練されたモデルは単純さに偏りがあり、マジョリティクラスを学習することを優先するか、有害なスプリアス相関に依存することが示されている。
モデルはデータセットの任意のクラスやグループを優先して、テストセットのパフォーマンスの差によって測定される複雑度を犠牲にして見つけ出すことができます。
複雑さのレベルが異なるサブセットが人口統計群と一致する場合、この難易度差はグループとラベルの関連性が欠如しているバランスの取れたデータセットでさえ起こる現象である。
平均パフォーマンススコアによって選択される一般的なモデルでは,不一致がモデル依存量であることを示す。
我々は、固定データセット上の異なるモデルの相違を比較するために、様々な設定で増幅係数を定量化する。
最後に,バランスの取れたデータセットを用いても,グループ間の性能格差が悪化する原因として,動作の増幅が困難である実例を2つ提示する。
バランスのとれたデータセットにおけるそのような差異の存在は、単にグループのサンプルサイズのバランスをとるだけでは、偏りのないパフォーマンスを保証するには不十分であることを示している。
この研究が、データ構造と相互作用する際のモデルバイアスの役割の計測可能な理解へのステップを示し、データセット監査と一緒にデプロイされる追加のモデル依存緩和メソッドを要求したいと考えています。
関連論文リスト
- Trained Models Tell Us How to Make Them Robust to Spurious Correlation without Group Annotation [3.894771553698554]
経験的リスク最小化(ERM)モデルは、ターゲットと高い刺激的な相関を持つ属性に依存する傾向がある。
これにより、これらの属性を欠いた未表現(または'マイナー')グループのパフォーマンスを低下させることができる。
本稿では,環境に基づく検証と損失に基づくサンプリング(EVaLS)を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:17:44Z) - The Group Robustness is in the Details: Revisiting Finetuning under Spurious Correlations [8.844894807922902]
現代の機械学習モデルは、素早い相関に過度に依存する傾向がある。
本稿では,最短群精度における微調整モデルの意外かつニュアンスな挙動を同定する。
以上の結果より,群強靭性を有する現代ファインチュードモデルの微妙な相互作用が以前よりも顕著に示された。
論文 参考訳(メタデータ) (2024-07-19T00:34:03Z) - Bias Amplification Enhances Minority Group Performance [10.380812738348899]
本稿では,新しい2段階学習アルゴリズムであるBAMを提案する。
第1段階では、各トレーニングサンプルに対して学習可能な補助変数を導入することにより、バイアス増幅方式を用いてモデルを訓練する。
第2段階では、バイアス増幅モデルが誤分類したサンプルを重み付けし、その後、再重み付けされたデータセット上で同じモデルをトレーニングし続けます。
論文 参考訳(メタデータ) (2023-09-13T04:40:08Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。