論文の概要: Mandoline: Model Evaluation under Distribution Shift
- arxiv url: http://arxiv.org/abs/2107.00643v1
- Date: Thu, 1 Jul 2021 17:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:40:48.751806
- Title: Mandoline: Model Evaluation under Distribution Shift
- Title(参考訳): Mandoline: 分散シフトによるモデル評価
- Authors: Mayee Chen, Karan Goel, Nimit Sohoni, Fait Poms, Kayvon Fatahalian,
Christopher R\'e
- Abstract要約: マシンラーニングモデルは、トレーニングや検証対象と異なる設定でデプロイされることが多い。
これらの問題を緩和する新しい評価フレームワークであるMandolineを開発した。
ユーザーは単純な"スライシング関数" - ノイズがあり、分散シフトの可能な軸をキャプチャすることを目的とした、潜在的に相関したバイナリ関数を書く。
- 参考スコア(独自算出の注目度): 8.007644303175395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models are often deployed in different settings than they
were trained and validated on, posing a challenge to practitioners who wish to
predict how well the deployed model will perform on a target distribution. If
an unlabeled sample from the target distribution is available, along with a
labeled sample from a possibly different source distribution, standard
approaches such as importance weighting can be applied to estimate performance
on the target. However, importance weighting struggles when the source and
target distributions have non-overlapping support or are high-dimensional.
Taking inspiration from fields such as epidemiology and polling, we develop
Mandoline, a new evaluation framework that mitigates these issues. Our key
insight is that practitioners may have prior knowledge about the ways in which
the distribution shifts, which we can use to better guide the importance
weighting procedure. Specifically, users write simple "slicing functions" -
noisy, potentially correlated binary functions intended to capture possible
axes of distribution shift - to compute reweighted performance estimates. We
further describe a density ratio estimation framework for the slices and show
how its estimation error scales with slice quality and dataset size. Empirical
validation on NLP and vision tasks shows that \name can estimate performance on
the target distribution up to $3\times$ more accurately compared to standard
baselines.
- Abstract(参考訳): マシンラーニングモデルは、トレーニングや検証対象と異なる設定でデプロイされることが多いため、デプロイされたモデルがターゲットのディストリビューションでどれだけうまく動作するかを予測したいと考える実践者にとって、課題となる。
対象分布からのラベル付きサンプルと、おそらく異なるソース分布からのラベル付きサンプルが利用可能であれば、重要度重み付けなどの標準アプローチを適用して目標の性能を推定することができる。
しかし、ソース分布とターゲット分布が重複しない支持を持つ場合や高次元の場合、重み付けの重要性が問題となる。
疫学やポーリングといった分野から着想を得て,これらの問題を緩和する新たな評価フレームワークであるmandolineを開発した。
私たちの重要な洞察は、実践者は分布が変化する方法に関する事前の知識を持っているかもしれないということです。
具体的には、ユーザは単純な“スライシング関数”を、分散シフトの可能な軸をキャプチャして、再重み付けされたパフォーマンス推定を計算するための、潜在的に相関したバイナリ関数を記述する。
さらに,スライスの密度比推定フレームワークについて述べるとともに,その推定誤差がスライス品質とデータセットサイズでどのようにスケールするかを示す。
NLPとビジョンタスクに関する実証的な検証では、 \name は標準ベースラインよりも正確にターゲットディストリビューションのパフォーマンスを最大 3 ドルまで見積もることができる。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Enhancing Robustness of Foundation Model Representations under
Provenance-related Distribution Shifts [8.298173603769063]
分布シフト下における基礎モデルに基づくモデルの安定性について検討する。
我々は,多施設データセットの文脈に現れる分布シフトの形式である,証明によるコンバウンディングに焦点をあてる。
その結果, 基礎モデルでは, コンバウンド・バイ・プロビデンス関係の分布シフトに対して, ある程度の頑健性を示すが, 調整により改善できることがわかった。
論文 参考訳(メタデータ) (2023-12-09T02:02:45Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Estimating Generalization under Distribution Shifts via Domain-Invariant
Representations [75.74928159249225]
未知の真のターゲットラベルのプロキシとして、ドメイン不変の予測器のセットを使用します。
結果として生じるリスク見積の誤差は、プロキシモデルのターゲットリスクに依存する。
論文 参考訳(メタデータ) (2020-07-06T17:21:24Z) - Calibrated Adversarial Refinement for Stochastic Semantic Segmentation [5.849736173068868]
本稿では,各予測に関連付けられた確率が,その根拠となる真偽の正しさを反映する,セマンティックマップ上の校正された予測分布を学習するための戦略を提案する。
マルチグレーダのLIDCデータセットと、注入曖昧さのあるCityscapesデータセットに対して、最先端の成果を達成し、アプローチの汎用性と堅牢性を実証する。
本研究は,おもちゃの回帰データセットを用いて実験することにより,校正された予測分布の学習を必要とする他のタスクにコア設計を適用することができることを示す。
論文 参考訳(メタデータ) (2020-06-23T16:39:59Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。