論文の概要: Positive and Unlabeled Data: Model, Estimation, Inference, and Classification
- arxiv url: http://arxiv.org/abs/2407.09735v1
- Date: Sat, 13 Jul 2024 00:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:08:35.956003
- Title: Positive and Unlabeled Data: Model, Estimation, Inference, and Classification
- Title(参考訳): 正・未ラベルデータ:モデル、推定、推論、分類
- Authors: Siyan Liu, Chi-Kuang Yeh, Xin Zhang, Qinglong Tian, Pengfei Li,
- Abstract要約: 本研究では、二重指数傾斜モデル(DETM)による正・ラベルなし(PU)データへの新たなアプローチを提案する。
従来の手法は、完全にランダム(SCAR)PUデータでのみ適用されるため、しばしば不足する。
我々のDEMの二重構造は、ランダムPUデータで選択されたより複雑で未探索な構造を効果的に許容する。
- 参考スコア(独自算出の注目度): 10.44075062541605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces a new approach to addressing positive and unlabeled (PU) data through the double exponential tilting model (DETM). Traditional methods often fall short because they only apply to selected completely at random (SCAR) PU data, where the labeled positive and unlabeled positive data are assumed to be from the same distribution. In contrast, our DETM's dual structure effectively accommodates the more complex and underexplored selected at random PU data, where the labeled and unlabeled positive data can be from different distributions. We rigorously establish the theoretical foundations of DETM, including identifiability, parameter estimation, and asymptotic properties. Additionally, we move forward to statistical inference by developing a goodness-of-fit test for the SCAR condition and constructing confidence intervals for the proportion of positive instances in the target domain. We leverage an approximated Bayes classifier for classification tasks, demonstrating DETM's robust performance in prediction. Through theoretical insights and practical applications, this study highlights DETM as a comprehensive framework for addressing the challenges of PU data.
- Abstract(参考訳): 本研究では,2次指数傾斜モデル(DETM)による正・ラベルなし(PU)データへの新たなアプローチを提案する。
従来の手法は、正とラベルなしの正のデータが同じ分布から来ると仮定されるランダムな(SCAR)PUデータでのみ適用されるため、しばしば不足する。
対照的に、DEMの双対構造は、ラベル付きおよびラベルなしの正のデータが異なる分布から得られるランダムPUデータにおいて、より複雑で未探索のデータを効果的に許容する。
同定可能性,パラメータ推定,漸近特性など,DETMの理論的基礎を厳格に確立する。
さらに、SCAR条件の適合性テストを開発し、対象領域における正のインスタンスの割合に対する信頼区間を構築することにより、統計的推測を推し進める。
我々は、近似ベイズ分類器を分類タスクに利用し、予測におけるDETMの頑健な性能を実証する。
本研究は、理論的洞察と実用的応用を通じて、PUデータの課題に対処するための包括的なフレームワークとして、DETMを強調した。
関連論文リスト
- The Probabilistic Tsetlin Machine: A Novel Approach to Uncertainty Quantification [1.0499611180329802]
本稿では,不確実性定量化のための堅牢で信頼性の高い,解釈可能なアプローチを実現することを目的とした,確率的テセリンマシン(PTM)フレームワークを提案する。
オリジナルのTMとは異なり、PTMは全ての節にわたって各Tsetlin Automaton(TA)の各状態に留まる確率を学習する。
推論中、TAは学習された確率分布に基づいて状態のサンプリングによって行動を決定する。
論文 参考訳(メタデータ) (2024-10-23T13:20:42Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning [49.94607673097326]
ラベルなしデータの分散に関する前提を前提としない、高度に適応可能なフレームワークをSimProとして提案する。
我々のフレームワークは確率モデルに基づいており、期待最大化アルゴリズムを革新的に洗練する。
本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-21T03:39:04Z) - Dr. FERMI: A Stochastic Distributionally Robust Fair Empirical Risk
Minimization Framework [12.734559823650887]
分散シフトが存在する場合、公正な機械学習モデルはテストデータに対して不公平に振る舞うことがある。
既存のアルゴリズムはデータへの完全なアクセスを必要とし、小さなバッチを使用する場合には使用できない。
本稿では,因果グラフの知識を必要としない収束保証付き分布安定度フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-20T23:25:28Z) - Learning Against Distributional Uncertainty: On the Trade-off Between
Robustness and Specificity [24.874664446700272]
本稿では,3つのアプローチを統一し,上記の2つの課題に対処する新たな枠組みについて検討する。
提案したモデルのモンテカルロ法に基づく解法(例えば、一貫性と正規性)、非漸近性(例えば、非バイアス性や誤差境界)について検討した。
論文 参考訳(メタデータ) (2023-01-31T11:33:18Z) - Learning from Positive and Unlabeled Data with Augmented Classes [17.97372291914351]
Augmented Classes (PUAC) を用いたPU学習のための非バイアスリスク推定器を提案する。
提案手法は,最適解への収束を理論的に保証する推定誤差を導出する。
論文 参考訳(メタデータ) (2022-07-27T03:40:50Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - A Unified Joint Maximum Mean Discrepancy for Domain Adaptation [73.44809425486767]
本論文は,最適化が容易なjmmdの統一形式を理論的に導出する。
統合JMMDから、JMMDは分類に有利な特徴ラベル依存を低下させることを示す。
本稿では,その依存を促進する新たなmmd行列を提案し,ラベル分布シフトにロバストな新しいラベルカーネルを考案する。
論文 参考訳(メタデータ) (2021-01-25T09:46:14Z) - Robust Bayesian Inference for Discrete Outcomes with the Total Variation
Distance [5.139874302398955]
離散的に評価された結果のモデルは、データがゼロインフレーション、過分散または汚染を示す場合、容易に誤特定される。
ここでは、Ttal Variation Distance (TVD) を用いた頑健な相違に基づくベイズ的アプローチを提案する。
我々は、我々のアプローチが堅牢で、シミュレーションおよび実世界のデータの範囲で予測性能を著しく改善していることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-26T09:53:06Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。