論文の概要: Shifts 2.0: Extending The Dataset of Real Distributional Shifts
- arxiv url: http://arxiv.org/abs/2206.15407v1
- Date: Thu, 30 Jun 2022 16:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 13:10:51.268738
- Title: Shifts 2.0: Extending The Dataset of Real Distributional Shifts
- Title(参考訳): shifts 2.0: 実分布シフトのデータセットを拡張する
- Authors: Andrey Malinin, Andreas Athanasopoulos, Muhamed Barakovic, Meritxell
Bach Cuadra, Mark J. F. Gales, Cristina Granziera, Mara Graziani, Nikolay
Kartashev, Konstantinos Kyriakopoulos, Po-Jui Lu, Nataliia Molchanova,
Antonis Nikitakis, Vatsal Raina, Francesco La Rosa, Eli Sivena, Vasileios
Tsarsitalidis, Efi Tsompopoulou, Elena Volf
- Abstract要約: シフトデータセットを、高い社会的重要性を持つ工業的、高リスクな応用から得られた2つのデータセットで拡張する。
3次元磁気共鳴脳画像における白質多発性硬化症病変の分節化の課題と船舶の電力消費量の推定について検討した。
これらの新しいデータセットは、研究者が新しい状況における堅牢な一般化と不確実性推定をさらに探求することを可能にする。
- 参考スコア(独自算出の注目度): 25.31085238930148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributional shift, or the mismatch between training and deployment data,
is a significant obstacle to the usage of machine learning in high-stakes
industrial applications, such as autonomous driving and medicine. This creates
a need to be able to assess how robustly ML models generalize as well as the
quality of their uncertainty estimates. Standard ML baseline datasets do not
allow these properties to be assessed, as the training, validation and test
data are often identically distributed. Recently, a range of dedicated
benchmarks have appeared, featuring both distributionally matched and shifted
data. Among these benchmarks, the Shifts dataset stands out in terms of the
diversity of tasks as well as the data modalities it features. While most of
the benchmarks are heavily dominated by 2D image classification tasks, Shifts
contains tabular weather forecasting, machine translation, and vehicle motion
prediction tasks. This enables the robustness properties of models to be
assessed on a diverse set of industrial-scale tasks and either universal or
directly applicable task-specific conclusions to be reached. In this paper, we
extend the Shifts Dataset with two datasets sourced from industrial, high-risk
applications of high societal importance. Specifically, we consider the tasks
of segmentation of white matter Multiple Sclerosis lesions in 3D magnetic
resonance brain images and the estimation of power consumption in marine cargo
vessels. Both tasks feature ubiquitous distributional shifts and a strict
safety requirement due to the high cost of errors. These new datasets will
allow researchers to further explore robust generalization and uncertainty
estimation in new situations. In this work, we provide a description of the
dataset and baseline results for both tasks.
- Abstract(参考訳): 分散シフト(あるいはトレーニングとデプロイメントデータのミスマッチ)は、自動運転や医療といった高度な産業応用において、マシンラーニングを使用する上での大きな障害である。
これにより、MLモデルがいかに堅牢に一般化するか、そして不確実性の推定値の品質を評価することができる必要がある。
標準のMLベースラインデータセットは、トレーニング、検証、テストデータがしばしば同一に分散されているため、これらのプロパティを評価できない。
近年,分散マッチングデータとシフトデータの両方を特徴とする専用ベンチマークが登場している。
これらのベンチマークの中で、shiftsデータセットは、タスクの多様性と、その特徴とするデータモダリティという点で際立っている。
ベンチマークのほとんどは2d画像分類タスクで占められているが、シフトには表型気象予報、機械翻訳、車両の動き予測タスクが含まれている。
これにより、さまざまな産業規模のタスクでモデルのロバスト性を評価することができ、普遍的あるいは直接的に適用可能なタスク固有の結論に達することができる。
本稿では,社会的重要性の高い産業・リスクの高い2つのデータセットを用いてShifts Datasetを拡張した。
具体的には,3次元磁気共鳴脳画像における白質多発性硬化症病変のセグメンテーションの課題と,船舶の電力消費の推定について検討する。
どちらのタスクも、ユビキタスな分散シフトと、高いエラーコストによる厳格な安全性要件を特徴とする。
これらの新しいデータセットは、研究者が新しい状況でロバストな一般化と不確実性推定をさらに探求できる。
本稿では,各タスクのデータセットとベースライン結果について述べる。
関連論文リスト
- Prediction Accuracy & Reliability: Classification and Object Localization under Distribution Shift [1.433758865948252]
本研究では,自然分布変化と気象増悪が検出品質および信頼性評価に与える影響について検討した。
公開されている自動運転データセットから、新しいデータセットがキュレートされた。
分散シフト中のCNNの粒度解析により、タスク性能と信頼性推定の両方に異なるタイプのシフトの影響を定量化することができる。
論文 参考訳(メタデータ) (2024-09-05T14:06:56Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Identifying the Context Shift between Test Benchmarks and Production
Data [1.2259552039796024]
データセットベンチマークにおける機械学習モデルの精度と実運用データの間には、パフォーマンスのギャップがある。
分布変化とモデル予測誤差につながる文脈変化を同定する2つの手法を概説する。
本研究は,機械学習モデルに基づく暗黙の仮定を強調するケーススタディを2つ提示する。
論文 参考訳(メタデータ) (2022-07-03T14:54:54Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - Shifts: A Dataset of Real Distributional Shift Across Multiple
Large-Scale Tasks [44.61070965407907]
現場の現状を考えると、分散シフトの影響を受け、様々なモードのタスクの標準化された大規模データセットが必要である。
本研究では,不確実性推定と分布シフトに対するロバスト性評価のためのemphShiftsデータセットを提案する。
論文 参考訳(メタデータ) (2021-07-15T16:59:34Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。