論文の概要: Challenges and Opportunities in Improving Worst-Group Generalization in Presence of Spurious Features
- arxiv url: http://arxiv.org/abs/2306.11957v5
- Date: Wed, 16 Apr 2025 22:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:33:30.354249
- Title: Challenges and Opportunities in Improving Worst-Group Generalization in Presence of Spurious Features
- Title(参考訳): すっぱい特徴の存在下でのWorst-Group Generalizationの改善への挑戦と機会
- Authors: Siddharth Joshi, Yu Yang, Yihao Xue, Wenhan Yang, Baharan Mirzasoleiman,
- Abstract要約: ディープニューラルネットワークは、トレーニング中にクラス内のほとんどの例に存在する*spurious*機能を利用することが多い。
これにより、これらの突発的な特徴を欠く少数派グループにとって、*悪いグループテストの精度*、すなわち、低い精度が生じる。
1) よりゆっくりと学習される刺激的な特徴,2) より多くのクラス,3) より多くのグループで、設定における刺激的な相関を緩和する手法を提案する。
- 参考スコア(独自算出の注目度): 43.64631697043496
- License:
- Abstract: Deep neural networks often exploit *spurious* features that are present in the majority of examples within a class during training. This leads to *poor worst-group test accuracy*, i.e., poor accuracy for minority groups that lack these spurious features. Despite the growing body of recent efforts to address spurious correlations (SC), several challenging settings remain unexplored.In this work, we propose studying methods to mitigate SC in settings with: 1) spurious features that are learned more slowly, 2) a larger number of classes, and 3) a larger number of groups. We introduce two new datasets, Animals and SUN, to facilitate this study and conduct a systematic benchmarking of 8 state-of-the-art (SOTA) methods across a total of 5 vision datasets, training over 5,000 models. Through this, we highlight how existing group inference methods struggle in the presence of spurious features that are learned later in training. Additionally, we demonstrate how all existing methods struggle in settings with more groups and/or classes. Finally, we show the importance of careful model selection (hyperparameter tuning) in extracting optimal performance, especially in the more challenging settings we introduced, and propose more cost-efficient strategies for model selection. Overall, through extensive and systematic experiments, this work uncovers a suite of new challenges and opportunities for improving worst-group generalization in the presence of spurious features. Our datasets, methods and scripts available at https://github.com/BigML-CS-UCLA/SpuCo.
- Abstract(参考訳): ディープニューラルネットワークは、トレーニング中にクラス内のほとんどの例に存在する*spurious*機能を利用することが多い。
これにより、これらの突発的な特徴を欠く少数派グループにとって、*悪いグループテストの精度*、すなわち、低い精度が生じる。
近年,スプリアス相関 (SC) に対処する取り組みが活発化しているにもかかわらず,いくつかの課題が未解決のままであり,本研究では,SC を緩和する手法について検討する。
1) よりゆっくりと学習される刺激的な特徴。
2)多くのクラス、および
3) グループ数が多い。
我々は、この研究を促進するために、AnimalsとSUNという2つの新しいデータセットを導入し、5つのビジョンデータセットにまたがる8つの最先端(SOTA)メソッドの体系的なベンチマークを行い、5000以上のモデルをトレーニングした。
そこで本研究では,既存のグループ推論手法が,後から学習した突発的特徴の存在にいかに苦労しているかを強調した。
さらに、既存のすべてのメソッドが、より多くのグループやクラスで設定に苦労する様子を実演します。
最後に、最適性能の抽出における注意深いモデル選択(ハイパーパラメータチューニング)の重要性を示し、特に導入したより困難な設定において、よりコスト効率の良いモデル選択戦略を提案する。
全体として、広範囲かつ体系的な実験を通じて、この研究は、突発的な特徴の存在下で最悪のグループ一般化を改善するための一連の新しい課題と機会を明らかにする。
データセット、メソッド、スクリプトはhttps://github.com/BigML-CS-UCLA/SpuCo.comで公開しています。
関連論文リスト
- EBES: Easy Benchmarking for Event Sequences [17.277513178760348]
イベントシーケンスは、ヘルスケア、ファイナンス、ユーザインタラクションログなど、さまざまな現実世界のドメインにおける一般的なデータ構造である。
時間データモデリング技術の進歩にもかかわらず、イベントシーケンスのパフォーマンスを評価するための標準ベンチマークは存在しない。
標準化された評価シナリオとプロトコルを備えた総合的なベンチマークツールであるEBESを紹介する。
論文 参考訳(メタデータ) (2024-10-04T13:03:43Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z) - Revisiting Data Complexity Metrics Based on Morphology for Overlap and
Imbalance: Snapshot, New Overlap Number of Balls Metrics and Singular
Problems Prospect [9.666866159867444]
本研究は,データ形態に基づく複雑性メトリクスの再検討に焦点をあてる。
クラスによるボールのカバレッジに基づいており、オーバーラップ・ナンバー・オブ・ボールにちなんで名付けられている。
論文 参考訳(メタデータ) (2020-07-15T18:21:13Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。