論文の概要: Sampling Bias Correction for Supervised Machine Learning: A Bayesian
Inference Approach with Practical Applications
- arxiv url: http://arxiv.org/abs/2203.06239v2
- Date: Tue, 15 Mar 2022 02:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 04:17:37.677380
- Title: Sampling Bias Correction for Supervised Machine Learning: A Bayesian
Inference Approach with Practical Applications
- Title(参考訳): 教師付き機械学習のためのサンプリングバイアス補正:実用的なベイズ推論アプローチ
- Authors: Max Sklar
- Abstract要約: 本稿では,データセットがラベルの不均衡などの意図的なサンプルバイアスを受ける可能性がある問題について議論する。
次に、この解をバイナリロジスティック回帰に適用し、データセットが意図的にサンプルバイアスを受けるシナリオについて議論する。
この手法は, 医療科学から画像認識, マーケティングに至るまで, ビッグデータの統計的推測に広く応用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a supervised machine learning problem where the training set has been
subject to a known sampling bias, how can a model be trained to fit the
original dataset? We achieve this through the Bayesian inference framework by
altering the posterior distribution to account for the sampling function. We
then apply this solution to binary logistic regression, and discuss scenarios
where a dataset might be subject to intentional sample bias such as label
imbalance. This technique is widely applicable for statistical inference on big
data, from the medical sciences to image recognition to marketing. Familiarity
with it will give the practitioner tools to improve their inference pipeline
from data collection to model selection.
- Abstract(参考訳): トレーニングセットが既知のサンプリングバイアスの対象となっている教師付き機械学習の問題を考えると、モデルはオリジナルのデータセットに適合するようにトレーニングできるのだろうか?
我々は, サンプリング関数を考慮した後方分布を変化させ, ベイズ推定フレームワークを用いてこれを実現する。
次に、この解をバイナリロジスティック回帰に適用し、データセットがラベルの不均衡のような意図的なサンプルバイアスを受けるシナリオについて議論する。
この手法は, 医療科学から画像認識, マーケティングに至るまで, ビッグデータの統計的推測に広く応用できる。
データ収集からモデル選択に至るまで、推論パイプラインを改善するための実践ツールが提供されるだろう。
関連論文リスト
- Towards Bayesian Data Selection [0.0]
例えば、セミ教師付き学習、アクティブラーニング、マルチアームのバンディット、ベイズ最適化などがある。
意思決定問題としてデータ選択をフレーミングすることで、このようなデータ追加を意思決定理論に組み込む。
半教師付き学習における自己学習の具体例について,各ベイズ基準を導出する。
論文 参考訳(メタデータ) (2024-06-18T12:40:15Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Achieving Representative Data via Convex Hull Feasibility Sampling
Algorithms [35.29582673348303]
トレーニングデータのバイアスをサンプリングすることは、機械学習システムにおけるアルゴリズムバイアスの主要な原因である。
得られたデータから代表的データセットを収集できるかどうかを高信頼で判断するために,適応的なサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T23:14:05Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Time-Series Imputation with Wasserstein Interpolation for Optimal
Look-Ahead-Bias and Variance Tradeoff [66.59869239999459]
ファイナンスでは、ポートフォリオ最適化モデルをトレーニングする前に、損失の計算を適用することができる。
インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。
提案手法は,提案法における差分とルックアヘッドバイアスのトレードオフを最適に制御するベイズ後部コンセンサス分布である。
論文 参考訳(メタデータ) (2021-02-25T09:05:35Z) - Regularization Helps with Mitigating Poisoning Attacks:
Distributionally-Robust Machine Learning Using the Wasserstein Distance [14.095523601311374]
我々は、データ中毒攻撃の影響を軽減するため、機械学習に分散ロバスト最適化を用いる。
我々は、最悪の場合のフィットネスの上限を求めることで、分散ロバストな機械学習問題を緩和する。
論文 参考訳(メタデータ) (2020-01-29T01:16:19Z) - Domain Adaptive Bootstrap Aggregating [5.444459446244819]
ブートストラップ集約(英: bootstrap aggregating)は、予測アルゴリズムの安定性を改善する一般的な方法である。
本稿では, ドメイン適応型バッグング手法と, 隣り合う新しい反復型サンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-01-12T20:02:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。