論文の概要: Learning from a Biased Sample
- arxiv url: http://arxiv.org/abs/2209.01754v1
- Date: Mon, 5 Sep 2022 04:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:15:05.932366
- Title: Learning from a Biased Sample
- Title(参考訳): 偏りのあるサンプルから学ぶ
- Authors: Roshni Sahoo, Lihua Lei, Stefan Wager
- Abstract要約: 本稿では,テスト分布のファミリーで発生する最悪のリスクを最小限に抑える決定ルールの学習方法を提案する。
我々は,盗難手法を用いてロバストなモデルを学習するための統計的保証を与え,損失関数がターゲットを捕捉する深層学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.162622771922123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The empirical risk minimization approach to data-driven decision making
assumes that we can learn a decision rule from training data drawn under the
same conditions as the ones we want to deploy it under. However, in a number of
settings, we may be concerned that our training sample is biased, and that some
groups (characterized by either observable or unobservable attributes) may be
under- or over-represented relative to the general population; and in this
setting empirical risk minimization over the training set may fail to yield
rules that perform well at deployment. Building on concepts from
distributionally robust optimization and sensitivity analysis, we propose a
method for learning a decision rule that minimizes the worst-case risk incurred
under a family of test distributions whose conditional distributions of
outcomes $Y$ given covariates $X$ differ from the conditional training
distribution by at most a constant factor, and whose covariate distributions
are absolutely continuous with respect to the covariate distribution of the
training data. We apply a result of Rockafellar and Uryasev to show that this
problem is equivalent to an augmented convex risk minimization problem. We give
statistical guarantees for learning a robust model using the method of sieves
and propose a deep learning algorithm whose loss function captures our
robustness target. We empirically validate our proposed method in simulations
and a case study with the MIMIC-III dataset.
- Abstract(参考訳): データ駆動型意思決定に対する実証的リスク最小化アプローチでは、同じ条件下で描画されたトレーニングデータから決定ルールを学習できると仮定しています。
しかし、多くの環境では、トレーニングサンプルが偏りがあり、一部のグループ(観測可能な属性または観測不可能な属性によって特徴付けられる)が一般大衆に対して過度または過度に表現されている場合があり、この設定では、トレーニングセットに対する経験的リスク最小化が、デプロイメントにおいてうまく機能するルールの獲得に失敗する可能性がある。
分布的ロバストな最適化と感度解析から導かれる概念に基づいて,条件分布が与えられた条件分布$Y$と条件分布分布$X$と,条件分布分布が少なくとも一定の因子によって異なり,条件分布が訓練データの共変分布に対して絶対連続であるようなテスト分布の族で発生する最悪のケースリスクを最小化する決定ルールを学習する手法を提案する。
我々はRockafellar と Uryasev の結果を適用し、この問題が拡張凸リスク最小化問題と等価であることを示す。
シーブ法を用いてロバストモデルを学ぶための統計的保証を与え,ロバスト性目標を損失関数が捉えるディープラーニングアルゴリズムを提案する。
シミュレーションにおいて提案手法を実証的に検証し,MIMIC-IIIデータセットを用いたケーススタディを行った。
関連論文リスト
- Estimating the Probabilities of Rare Outputs in Language Models [8.585890569162267]
小型変圧器言語モデルからのargmaxサンプリングの文脈における低確率推定について検討した。
その結果、重要サンプリングはアクティベーション外挿より優れるが、どちらもナイーブサンプリングより優れていることがわかった。
低確率推定のための新しい手法は、最悪の場合の性能についてより強力な保証を提供するために必要である、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-17T04:31:18Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - User-defined Event Sampling and Uncertainty Quantification in Diffusion
Models for Physical Dynamical Systems [49.75149094527068]
拡散モデルを用いて予測を行い,カオス力学系に対する不確かさの定量化が可能であることを示す。
本研究では,雑音レベルが低下するにつれて真の分布に収束する条件付きスコア関数の確率的近似法を開発する。
推論時に非線形ユーザ定義イベントを条件付きでサンプリングすることができ、分布の尾部からサンプリングした場合でもデータ統計と一致させることができる。
論文 参考訳(メタデータ) (2023-06-13T03:42:03Z) - Conformal Inference for Invariant Risk Minimization [12.049545417799125]
機械学習モデルの応用は、分布シフトの発生によって著しく阻害される可能性がある。
この問題を解決する一つの方法は、不変リスク最小化(IRM)のような不変学習を用いて不変表現を取得することである。
本稿では,不変表現に対する不確実性推定を記述するために,分布自由予測領域を得る手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:48:38Z) - Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。
粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:58:34Z) - Unsupervised Embedding Learning from Uncertainty Momentum Modeling [37.674449317054716]
本研究では,与えられた未ラベル学習サンプルの不確かさを明示的にモデル化し,探索する新しい手法を提案する。
このような不確実性モデリングのモーメントを学習に利用し、アウトレーヤに取り組むのに役立ちます。
論文 参考訳(メタデータ) (2021-07-19T14:06:19Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - Wasserstein Distributionally Robust Optimization: Theory and Applications in Machine Learning [20.116219345579154]
科学、工学、経済学における決定問題は、サンプルを通して間接的にしか観測できない不確実なパラメータによって影響を受ける。
データ駆動意思決定の目標は、見つからないテストサンプルでうまく機能する、有限個のトレーニングサンプルから決定を学習することである。
ワッサーシュタインの分布的ロバストな最適化が統計的学習に興味深い影響をもたらすことを示す。
論文 参考訳(メタデータ) (2019-08-23T09:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。