論文の概要: Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time
- arxiv url: http://arxiv.org/abs/2211.14238v1
- Date: Fri, 25 Nov 2022 17:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:59:18.220405
- Title: Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time
- Title(参考訳): Wild-Time: 時間によるWildディストリビューションシフトのベンチマーク
- Authors: Huaxiu Yao, Caroline Choi, Bochuan Cao, Yoonho Lee, Pang Wei Koh,
Chelsea Finn
- Abstract要約: 時間的シフトは、現実世界にデプロイされた機械学習モデルのパフォーマンスを著しく低下させる可能性がある。
ドメイン一般化、連続学習、自己教師付き学習、アンサンブル学習の手法を含む13の先行手法をベンチマークする。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
- 参考スコア(独自算出の注目度): 69.77704012415845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distribution shift occurs when the test distribution differs from the
training distribution, and it can considerably degrade performance of machine
learning models deployed in the real world. Temporal shifts -- distribution
shifts arising from the passage of time -- often occur gradually and have the
additional structure of timestamp metadata. By leveraging timestamp metadata,
models can potentially learn from trends in past distribution shifts and
extrapolate into the future. While recent works have studied distribution
shifts, temporal shifts remain underexplored. To address this gap, we curate
Wild-Time, a benchmark of 5 datasets that reflect temporal distribution shifts
arising in a variety of real-world applications, including patient prognosis
and news classification. On these datasets, we systematically benchmark 13
prior approaches, including methods in domain generalization, continual
learning, self-supervised learning, and ensemble learning. We use two
evaluation strategies: evaluation with a fixed time split (Eval-Fix) and
evaluation with a data stream (Eval-Stream). Eval-Fix, our primary evaluation
strategy, aims to provide a simple evaluation protocol, while Eval-Stream is
more realistic for certain real-world applications. Under both evaluation
strategies, we observe an average performance drop of 20% from in-distribution
to out-of-distribution data. Existing methods are unable to close this gap.
Code is available at https://wild-time.github.io/.
- Abstract(参考訳): テスト分布がトレーニング分布と異なる場合の分散シフトは、実世界でデプロイされた機械学習モデルの性能を著しく低下させる可能性がある。
時空シフト -- 時間経過から生じる分布シフト -- は徐々に発生し、タイムスタンプメタデータの追加構造を持つことが多い。
タイムスタンプメタデータを活用することで、モデルは過去の分散シフトのトレンドから学び、未来への外挿が可能になる。
近年の研究では分布変化が研究されているが、時間シフトは未解明のままである。
このギャップに対処するため、wild-timeは患者の予後やニュース分類など、さまざまな現実のアプリケーションで発生する時間分布の変化を反映した5つのデータセットのベンチマークである。
これらのデータセットについて,ドメイン一般化,継続学習,自己教師付き学習,アンサンブル学習など,13の先行手法を体系的にベンチマークする。
固定時間分割による評価(Eval-Fix)とデータストリームによる評価(Eval-Stream)の2つの評価戦略を用いる。
私たちの主要な評価戦略であるEval-Fixは、単純な評価プロトコルを提供することを目標としています。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
既存の方法は、このギャップを閉じることができない。
コードはhttps://wild-time.github.io/で入手できる。
関連論文リスト
- Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Prompting-based Temporal Domain Generalization [10.377683220196873]
本稿では,時間領域の一般化に対する新しいプロンプトベースアプローチを提案する。
本手法は,グローバルなプロンプト,ドメイン固有のプロンプト,ドリフト認識プロンプトを学習することで,時間的ドリフトに訓練されたモデルを適用する。
分類,回帰,時系列予測タスクの実験は,提案手法の汎用性を実証している。
論文 参考訳(メタデータ) (2023-10-03T22:40:56Z) - AnoShift: A Distribution Shift Benchmark for Unsupervised Anomaly
Detection [7.829710051617368]
本稿では,ネットワーク侵入検知のためのトラフィックデータセットである Kyoto-2006+ 上に構築された,時間とともに変化するデータを含む教師なし異常検出ベンチマークを提案する。
まず, 基本機能解析, t-SNE, および最適輸送手法を用いて, 年々の分布距離を計測する。
従来のアプローチからディープラーニングまで,さまざまなモデルでパフォーマンス劣化を検証する。
論文 参考訳(メタデータ) (2022-06-30T17:59:22Z) - Learning from Heterogeneous Data Based on Social Interactions over
Graphs [58.34060409467834]
本研究では,個別のエージェントが異なる次元のストリーミング特徴を観察しながら分類問題の解決を目指す分散アーキテクチャを提案する。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
私たちはそれを示します。
戦略により、エージェントはこの高度に異質な環境下で一貫して学習することができる。
論文 参考訳(メタデータ) (2021-12-17T12:47:18Z) - Extending the WILDS Benchmark for Unsupervised Adaptation [186.90399201508953]
We present the WILDS 2.0 update, which extends 8 of the 10 datasets in the WILDS benchmark of distribution shifts to include curated unlabeled data。
これらのデータセットは、組織学から野生生物保護まで幅広い応用、タスク(分類、回帰、検出)、モダリティにまたがる。
ドメイン不変量や自己学習,自己管理など,ラベルのないデータを活用する最先端の手法を体系的にベンチマークする。
論文 参考訳(メタデータ) (2021-12-09T18:32:38Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。