論文の概要: Identifying the Context Shift between Test Benchmarks and Production
Data
- arxiv url: http://arxiv.org/abs/2207.01059v1
- Date: Sun, 3 Jul 2022 14:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 14:02:50.300492
- Title: Identifying the Context Shift between Test Benchmarks and Production
Data
- Title(参考訳): テストベンチマークと運用データ間のコンテキストシフトの特定
- Authors: Matthew Groh
- Abstract要約: データセットベンチマークにおける機械学習モデルの精度と実運用データの間には、パフォーマンスのギャップがある。
分布変化とモデル予測誤差につながる文脈変化を同定する2つの手法を概説する。
本研究は,機械学習モデルに基づく暗黙の仮定を強調するケーススタディを2つ提示する。
- 参考スコア(独自算出の注目度): 1.2259552039796024
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Across a wide variety of domains, there exists a performance gap between
machine learning models' accuracy on dataset benchmarks and real-world
production data. Despite the careful design of static dataset benchmarks to
represent the real-world, models often err when the data is out-of-distribution
relative to the data the models have been trained on. We can directly measure
and adjust for some aspects of distribution shift, but we cannot address sample
selection bias, adversarial perturbations, and non-stationarity without knowing
the data generation process. In this paper, we outline two methods for
identifying changes in context that lead to distribution shifts and model
prediction errors: leveraging human intuition and expert knowledge to identify
first-order contexts and developing dynamic benchmarks based on desiderata for
the data generation process. Furthermore, we present two case-studies to
highlight the implicit assumptions underlying applied machine learning models
that tend to lead to errors when attempting to generalize beyond test benchmark
datasets. By paying close attention to the role of context in each prediction
task, researchers can reduce context shift errors and increase generalization
performance.
- Abstract(参考訳): さまざまなドメインにまたがって、データセットベンチマークにおける機械学習モデルの精度と実世界の生産データとの間には、パフォーマンスギャップがある。
実世界を表す静的データセットベンチマークは慎重に設計されているが、モデルがトレーニングしたデータに対してデータが分散していない場合、モデルはしばしばerrになる。
分布シフトのいくつかの側面を直接測定・調整することはできるが,データ生成プロセスを知ることなく,サンプル選択バイアス,対角摂動,非定常性に対処することはできない。
本稿では、人間の直感と専門家の知識を活用して1次文脈を識別し、デシダータに基づく動的ベンチマークをデータ生成プロセスで開発する。
さらに、テストベンチマークデータセットを超えて一般化しようとする場合、エラーにつながる傾向にある応用機械学習モデルに基づく暗黙の仮定を強調する2つのケーススタディを示す。
各予測タスクにおけるコンテキストの役割に注意を払うことで、研究者はコンテキストシフトエラーを減らし、一般化性能を向上させることができる。
関連論文リスト
- A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data [9.57464542357693]
実世界のモデリングパイプラインは、しばしばデータセット固有の前処理と特徴工学を必要とするため、モデル中心の評価は偏りがあることを実証する。
Kaggleコンペティションから10の関連するデータセットを選択し、データセット毎に専門家レベルの前処理パイプラインを実装します。
データセット固有の機能エンジニアリングの後、モデルランキングは大幅に変化し、性能差が減少し、モデル選択の重要性が低下する。
論文 参考訳(メタデータ) (2024-07-02T09:54:39Z) - Simultaneous Improvement of ML Model Fairness and Performance by
Identifying Bias in Data [1.76179873429447]
トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理手法を提案する。
特に、類似した特徴を持つインスタンスが存在するが、保護属性の変動に起因するラベルが異なる問題設定では、固有のバイアスがデータセット内で引き起こされる、と主張する。
論文 参考訳(メタデータ) (2022-10-24T13:04:07Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Discovering Distribution Shifts using Latent Space Representations [4.014524824655106]
新しい候補データセットに対するモデルの一般化性を評価するのは簡単ではない。
埋め込み空間幾何を用いて分布シフトを検出するための非パラメトリックフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-04T19:00:16Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - An Information-theoretic Approach to Distribution Shifts [9.475039534437332]
機械学習モデルを現実世界に安全にデプロイすることは、しばしば難しいプロセスである。
特定の地理的位置から得られたデータで訓練されたモデルは、他の場所で得られたデータでクエリされたときに失敗する傾向がある。
集団のサブセットに適合するニューラルネットワークは 選択バイアスを 与えるかもしれない
論文 参考訳(メタデータ) (2021-06-07T16:44:21Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Estimating Generalization under Distribution Shifts via Domain-Invariant
Representations [75.74928159249225]
未知の真のターゲットラベルのプロキシとして、ドメイン不変の予測器のセットを使用します。
結果として生じるリスク見積の誤差は、プロキシモデルのターゲットリスクに依存する。
論文 参考訳(メタデータ) (2020-07-06T17:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。