論文の概要: Towards Mitigating Spurious Correlations in the Wild: A Benchmark & a
more Realistic Dataset
- arxiv url: http://arxiv.org/abs/2306.11957v1
- Date: Wed, 21 Jun 2023 00:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 15:16:46.981820
- Title: Towards Mitigating Spurious Correlations in the Wild: A Benchmark & a
more Realistic Dataset
- Title(参考訳): 荒野におけるスプリアス相関の緩和に向けて - ベンチマークとより現実的なデータセット
- Authors: Siddharth Joshi, Yu Yang, Yihao Xue, Wenhan Yang and Baharan
Mirzasoleiman
- Abstract要約: ディープニューラルネットワークは、しばしばクラスラベルと急激な相関を持つ非予測的特徴を利用する。
急激な相関を修復する最近の研究が増えているにもかかわらず、標準化されたベンチマークの欠如は再現可能な評価を妨げている。
本稿では,PythonパッケージであるSpuCoについて述べる。
- 参考スコア(独自算出の注目度): 42.022213406339034
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural networks often exploit non-predictive features that are
spuriously correlated with class labels, leading to poor performance on groups
of examples without such features. Despite the growing body of recent works on
remedying spurious correlations, the lack of a standardized benchmark hinders
reproducible evaluation and comparison of the proposed solutions. To address
this, we present SpuCo, a python package with modular implementations of
state-of-the-art solutions enabling easy and reproducible evaluation of current
methods. Using SpuCo, we demonstrate the limitations of existing datasets and
evaluation schemes in validating the learning of predictive features over
spurious ones. To overcome these limitations, we propose two new vision
datasets: (1) SpuCoMNIST, a synthetic dataset that enables simulating the
effect of real world data properties e.g. difficulty of learning spurious
feature, as well as noise in the labels and features; (2) SpuCoAnimals, a
large-scale dataset curated from ImageNet that captures spurious correlations
in the wild much more closely than existing datasets. These contributions
highlight the shortcomings of current methods and provide a direction for
future research in tackling spurious correlations. SpuCo, containing the
benchmark and datasets, can be found at https://github.com/BigML-CS-UCLA/SpuCo,
with detailed documentation available at
https://spuco.readthedocs.io/en/latest/.
- Abstract(参考訳): ディープニューラルネットワークは、クラスラベルと刺激的に相関する非予測的特徴をしばしば活用し、そのような特徴を持たない例群のパフォーマンスを低下させる。
突発的相関の緩和に関する最近の研究が増えているにもかかわらず、標準化されたベンチマークの欠如は再現可能な評価と提案されたソリューションの比較を妨げる。
そこで本研究では,現状の手法をモジュール化して実装したPythonパッケージであるSpuCoについて述べる。
SpuCoを用いることで、既存のデータセットと評価スキームの限界を実証し、突発性よりも予測的特徴の学習を検証する。
これらの制限を克服するため,(1)SpuCoMNIST,(2)SpuCoAnimals,(2)ImageNetから収集した大規模データセットは,既存のデータセットよりもはるかに密接な相関関係を捉え,実世界のデータ特性の効果をシミュレートする合成データセットを提案する。
これらの貢献は、現在の方法の欠点を強調し、スプリアス相関に取り組むための今後の研究の方向性を提供する。
ベンチマークとデータセットを含むSpuCoはhttps://github.com/BigML-CS-UCLA/SpuCoで見ることができる。
関連論文リスト
- EBES: Easy Benchmarking for Event Sequences [17.277513178760348]
イベントシーケンスは、ヘルスケア、ファイナンス、ユーザインタラクションログなど、さまざまな現実世界のドメインにおける一般的なデータ構造である。
時間データモデリング技術の進歩にもかかわらず、イベントシーケンスのパフォーマンスを評価するための標準ベンチマークは存在しない。
標準化された評価シナリオとプロトコルを備えた総合的なベンチマークツールであるEBESを紹介する。
論文 参考訳(メタデータ) (2024-10-04T13:03:43Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z) - Revisiting Data Complexity Metrics Based on Morphology for Overlap and
Imbalance: Snapshot, New Overlap Number of Balls Metrics and Singular
Problems Prospect [9.666866159867444]
本研究は,データ形態に基づく複雑性メトリクスの再検討に焦点をあてる。
クラスによるボールのカバレッジに基づいており、オーバーラップ・ナンバー・オブ・ボールにちなんで名付けられている。
論文 参考訳(メタデータ) (2020-07-15T18:21:13Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。