論文の概要: WILDS: A Benchmark of in-the-Wild Distribution Shifts
- arxiv url: http://arxiv.org/abs/2012.07421v2
- Date: Tue, 9 Mar 2021 07:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:26:01.767236
- Title: WILDS: A Benchmark of in-the-Wild Distribution Shifts
- Title(参考訳): wilds: 野生の分布変化のベンチマーク
- Authors: Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin
Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas
Phillips, Irena Gao, Tony Lee, Etienne David, Ian Stavness, Wei Guo, Berton
A. Earnshaw, Imran S. Haque, Sara Beery, Jure Leskovec, Anshul Kundaje, Emma
Pierson, Sergey Levine, Chelsea Finn, Percy Liang
- Abstract要約: 分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
- 参考スコア(独自算出の注目度): 157.53410583509924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distribution shifts -- where the training distribution differs from the test
distribution -- can substantially degrade the accuracy of machine learning (ML)
systems deployed in the wild. Despite their ubiquity, these real-world
distribution shifts are under-represented in the datasets widely used in the ML
community today. To address this gap, we present WILDS, a curated collection of
8 benchmark datasets that reflect a diverse range of distribution shifts which
naturally arise in real-world applications, such as shifts across hospitals for
tumor identification; across camera traps for wildlife monitoring; and across
time and location in satellite imaging and poverty mapping. On each dataset, we
show that standard training results in substantially lower out-of-distribution
than in-distribution performance, and that this gap remains even with models
trained by existing methods for handling distribution shifts. This underscores
the need for new training methods that produce models which are more robust to
the types of distribution shifts that arise in practice. To facilitate method
development, we provide an open-source package that automates dataset loading,
contains default model architectures and hyperparameters, and standardizes
evaluations. Code and leaderboards are available at https://wilds.stanford.edu.
- Abstract(参考訳): トレーニング分布がテスト分布と異なる分散シフトは、ワイルドにデプロイされた機械学習(ml)システムの精度を実質的に低下させることができる。
その普遍性にもかかわらず、これらの現実世界の分布シフトは、今日のMLコミュニティで広く使われているデータセットに不足している。
このギャップに対処するため、WILDSは、腫瘍識別のための病院間のシフト、野生生物監視のためのカメラトラップの横断、衛星画像と貧困マッピングにおける時間と場所の横断といった、現実の応用において自然に発生する様々な分布シフトを反映した8つのベンチマークデータセットのキュレートされたコレクションである。
各データセットにおいて、標準トレーニングは、分散性能よりもかなり低い分散アウトオブディストリビューションとなり、このギャップは、既存の分散シフトを処理する方法によってトレーニングされたモデルでも残ることを示す。
これは、実際に発生する分散シフトのタイプに対してより堅牢なモデルを生成する新しいトレーニング方法の必要性を浮き彫りにしている。
手法開発を容易にするため,データセットの読み込みを自動化し,デフォルトモデルアーキテクチャとハイパーパラメータを含むオープンソースパッケージを提供し,評価を標準化する。
コードとリーダーボードはhttps://wilds.stanford.edu.comで入手できる。
関連論文リスト
- Class Distribution Shifts in Zero-Shot Learning: Learning Robust Representations [3.8980564330208662]
シフトの原因となる属性が事前に不明であると仮定するモデルを提案する。
提案手法は,シミュレーションと実世界のデータセットの両方において,多様なクラス分布の一般化を改善する。
論文 参考訳(メタデータ) (2023-11-30T14:14:31Z) - Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time [69.77704012415845]
時間的シフトは、現実世界にデプロイされた機械学習モデルのパフォーマンスを著しく低下させる可能性がある。
ドメイン一般化、連続学習、自己教師付き学習、アンサンブル学習の手法を含む13の先行手法をベンチマークする。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
論文 参考訳(メタデータ) (2022-11-25T17:07:53Z) - Robust Calibration with Multi-domain Temperature Scaling [86.07299013396059]
我々は,複数の領域からのデータを活用することで,分散シフトを処理するシステムキャリブレーションモデルを開発した。
提案手法は,分布シフト時のキャリブレーションを改善するために,領域内のロバスト性を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:32:12Z) - Extending the WILDS Benchmark for Unsupervised Adaptation [186.90399201508953]
We present the WILDS 2.0 update, which extends 8 of the 10 datasets in the WILDS benchmark of distribution shifts to include curated unlabeled data。
これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
ドメイン不変量や自己学習,自己管理など,ラベルのないデータを活用する最先端の手法を体系的にベンチマークする。
論文 参考訳(メタデータ) (2021-12-09T18:32:38Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。