論文の概要: Learning from a Biased Sample
- arxiv url: http://arxiv.org/abs/2209.01754v3
- Date: Tue, 08 Oct 2024 14:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:10.352328
- Title: Learning from a Biased Sample
- Title(参考訳): バイアスドサンプルから学ぶ
- Authors: Roshni Sahoo, Lihua Lei, Stefan Wager,
- Abstract要約: 本稿では,テスト分布のファミリーで発生する最悪のリスクを最小限に抑える決定ルールの学習方法を提案する。
本研究では,健康調査データからメンタルヘルススコアの予測を行うケーススタディにおいて,提案手法を実証的に検証した。
- 参考スコア(独自算出の注目度): 3.546358664345473
- License:
- Abstract: The empirical risk minimization approach to data-driven decision making requires access to training data drawn under the same conditions as those that will be faced when the decision rule is deployed. However, in a number of settings, we may be concerned that our training sample is biased in the sense that some groups (characterized by either observable or unobservable attributes) may be under- or over-represented relative to the general population; and in this setting empirical risk minimization over the training set may fail to yield rules that perform well at deployment. We propose a model of sampling bias called conditional $\Gamma$-biased sampling, where observed covariates can affect the probability of sample selection arbitrarily much but the amount of unexplained variation in the probability of sample selection is bounded by a constant factor. Applying the distributionally robust optimization framework, we propose a method for learning a decision rule that minimizes the worst-case risk incurred under a family of test distributions that can generate the training distribution under $\Gamma$-biased sampling. We apply a result of Rockafellar and Uryasev to show that this problem is equivalent to an augmented convex risk minimization problem. We give statistical guarantees for learning a model that is robust to sampling bias via the method of sieves, and propose a deep learning algorithm whose loss function captures our robust learning target. We empirically validate our proposed method in a case study on prediction of mental health scores from health survey data and a case study on ICU length of stay prediction.
- Abstract(参考訳): データ駆動意思決定に対する実証的リスク最小化アプローチでは、決定ルールのデプロイ時に直面するものと同じ条件下で描画されたトレーニングデータへのアクセスが必要となる。
しかし、多くの環境では、一部のグループ(観測不可能な属性または観測不能な属性によって特徴付けられる)が一般大衆に対して過度または過度に表現される可能性があるという意味で、我々のトレーニングサンプルが偏りがあることを懸念し、この設定では、トレーニングセットに対する経験的リスク最小化が、デプロイメントにおいてうまく機能するルールを達成できない可能性がある。
本稿では, 条件付き$\Gamma$-biasedサンプリングと呼ばれるサンプリングバイアスモデルを提案する。このモデルでは, 観測された共変量によってサンプル選択の確率が任意に変化しうるが, サンプル選択の確率における説明できない変動の量は定数係数で制限される。
本稿では,分散的ロバストな最適化フレームワークを適用し,Gamma$-biased サンプリングでトレーニング分布を生成可能な,テスト分布のファストケースのリスクを最小化する決定ルールの学習手法を提案する。
我々はRockafellar と Uryasev の結果を適用し、この問題が拡張凸リスク最小化問題と等価であることを示す。
本稿では, 偏見のサンプリングに頑健なモデルを学ぶための統計的保証を与えるとともに, ロス関数が我々の頑健な学習目標を捕捉する深層学習アルゴリズムを提案する。
健康調査データからメンタルヘルススコアを予測するケーススタディと、滞在時間予測のICU長に関するケーススタディにおいて、提案手法を実証的に検証した。
関連論文リスト
- Estimating the Probabilities of Rare Outputs in Language Models [8.585890569162267]
小型変圧器言語モデルからのargmaxサンプリングの文脈における低確率推定について検討した。
その結果、重要サンプリングはアクティベーション外挿より優れるが、どちらもナイーブサンプリングより優れていることがわかった。
低確率推定のための新しい手法は、最悪の場合の性能についてより強力な保証を提供するために必要である、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-17T04:31:18Z) - Distributionally Robust Safe Sample Screening [15.791952053731448]
分散ロバストセーフサンプルスクリーニング(DRSSS)と呼ばれる機械学習手法を提案する。
DRSSSは、将来トレーニングサンプルの分布が変化しても、不要なトレーニングサンプルを特定することを目的としている。
我々は、DRSSS法の理論的保証と、合成データセットと実世界のデータセットの数値実験による性能評価を行う。
論文 参考訳(メタデータ) (2024-06-10T01:46:42Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - User-defined Event Sampling and Uncertainty Quantification in Diffusion
Models for Physical Dynamical Systems [49.75149094527068]
拡散モデルを用いて予測を行い,カオス力学系に対する不確かさの定量化が可能であることを示す。
本研究では,雑音レベルが低下するにつれて真の分布に収束する条件付きスコア関数の確率的近似法を開発する。
推論時に非線形ユーザ定義イベントを条件付きでサンプリングすることができ、分布の尾部からサンプリングした場合でもデータ統計と一致させることができる。
論文 参考訳(メタデータ) (2023-06-13T03:42:03Z) - Conformal Inference for Invariant Risk Minimization [12.049545417799125]
機械学習モデルの応用は、分布シフトの発生によって著しく阻害される可能性がある。
この問題を解決する一つの方法は、不変リスク最小化(IRM)のような不変学習を用いて不変表現を取得することである。
本稿では,不変表現に対する不確実性推定を記述するために,分布自由予測領域を得る手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:48:38Z) - Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。
粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:58:34Z) - Unsupervised Embedding Learning from Uncertainty Momentum Modeling [37.674449317054716]
本研究では,与えられた未ラベル学習サンプルの不確かさを明示的にモデル化し,探索する新しい手法を提案する。
このような不確実性モデリングのモーメントを学習に利用し、アウトレーヤに取り組むのに役立ちます。
論文 参考訳(メタデータ) (2021-07-19T14:06:19Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。