論文の概要: Unlocking Unlabeled Data: Ensemble Learning with the Hui- Walter
Paradigm for Performance Estimation in Online and Static Settings
- arxiv url: http://arxiv.org/abs/2401.09376v1
- Date: Wed, 17 Jan 2024 17:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:15:01.876472
- Title: Unlocking Unlabeled Data: Ensemble Learning with the Hui- Walter
Paradigm for Performance Estimation in Online and Static Settings
- Title(参考訳): ラベルなしデータのアンロック:オンラインおよび静的設定におけるパフォーマンス推定のためのHui-Walterパラダイムを用いたアンサンブル学習
- Authors: Kevin Slote, Elaine Lee
- Abstract要約: 我々は、伝統的に疫学や医学に応用されたHui-Walterパラダイムを機械学習の分野に適用する。
根拠のないシナリオでは、偽陽性率、偽陰性率、先行といった重要なパフォーマンス指標を推定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of machine learning and statistical modeling, practitioners
often work under the assumption of accessible, static, labeled data for
evaluation and training. However, this assumption often deviates from reality
where data may be private, encrypted, difficult- to-measure, or unlabeled. In
this paper, we bridge this gap by adapting the Hui-Walter paradigm, a method
traditionally applied in epidemiology and medicine, to the field of machine
learning. This approach enables us to estimate key performance metrics such as
false positive rate, false negative rate, and priors in scenarios where no
ground truth is available. We further extend this paradigm for handling online
data, opening up new possibilities for dynamic data environments. Our
methodology involves partitioning data into latent classes to simulate multiple
data populations (if natural populations are unavailable) and independently
training models to replicate multiple tests. By cross-tabulating binary
outcomes across ensemble categorizers and multiple populations, we are able to
estimate unknown parameters through Gibbs sampling, eliminating the need for
ground-truth or labeled data. This paper showcases the potential of our
methodology to transform machine learning practices by allowing for accurate
model assessment under dynamic and uncertain data conditions.
- Abstract(参考訳): 機械学習と統計モデリングの領域では、実践者はしばしば、評価とトレーニングのためにアクセス可能で静的なラベル付きデータを前提として働く。
しかし、この仮定は、データがプライベート、暗号化、測定困難、ラベルなし、といった現実から逸脱することが多い。
本稿では,従来の疫学や医学に応用される手法であるhui-walterパラダイムを機械学習の分野に適用することで,このギャップを埋める。
このアプローチにより、根拠のないシナリオにおいて、偽陽性率、偽陰性率、事前値などの重要なパフォーマンス指標を推定できる。
オンラインデータを扱うこのパラダイムをさらに拡張し、動的データ環境の新たな可能性を開きます。
私たちの方法論は、データを潜在クラスに分割して複数のデータ集団をシミュレートし(もし自然集団が使えなければ)、独立したトレーニングモデルを使用して複数のテストを再現する。
アンサンブル分類子と複数の集団間でバイナリ結果のクロス集計を行うことで、gibbsサンプリングによって未知のパラメータを推定し、接地データやラベル付きデータの必要性をなくすことができる。
本稿では、動的かつ不確定なデータ条件下での正確なモデル評価を可能にすることにより、機械学習プラクティスを変革する手法の可能性を示す。
関連論文リスト
- Towards a Theoretical Understanding of Memorization in Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。
本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - A Data-Driven Method for Automated Data Superposition with Applications
in Soft Matter Science [0.0]
我々は任意の座標変換で実験データを重畳するデータ駆動非パラメトリック法を開発した。
本手法は, 材料分類, 設計, 発見などの応用を通知する, 解釈可能なデータ駆動モデルを生成する。
論文 参考訳(メタデータ) (2022-04-20T14:58:04Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - Self Training with Ensemble of Teacher Models [8.257085583227695]
堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
論文 参考訳(メタデータ) (2021-07-17T09:44:09Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。