論文の概要: Class prior estimation for positive-unlabeled learning when label shift occurs
- arxiv url: http://arxiv.org/abs/2502.21194v1
- Date: Fri, 28 Feb 2025 16:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:45.457406
- Title: Class prior estimation for positive-unlabeled learning when label shift occurs
- Title(参考訳): ラベルシフトが生じたときの正の未ラベル学習のクラス事前推定
- Authors: Jan Mielniczuk, Wojciech Rejchel, Paweł Teisseyre,
- Abstract要約: 本稿では,後部確率の推定を回避した,クラス前の新しい直接推定手法を提案する。
これはカーネル埋め込みと共に分布マッチング技術に基づいており、最適化タスクの明示的な解として得られる。
合成データおよび実データに対する有限サンプルの挙動について検討し,提案手法が提案手法と相まって,提案手法を比較検討した。
- 参考スコア(独自算出の注目度): 1.0514231683620516
- License:
- Abstract: We study estimation of class prior for unlabeled target samples which is possibly different from that of source population. It is assumed that for the source data only samples from positive class and from the whole population are available (PU learning scenario). We introduce a novel direct estimator of class prior which avoids estimation of posterior probabilities and has a simple geometric interpretation. It is based on a distribution matching technique together with kernel embedding and is obtained as an explicit solution to an optimisation task. We establish its asymptotic consistency as well as a non-asymptotic bound on its deviation from the unknown prior, which is calculable in practice. We study finite sample behaviour for synthetic and real data and show that the proposal, together with a suitably modified version for large values of source prior, works on par or better than its competitors.
- Abstract(参考訳): 本研究は, 原産地と異なる可能性のある未ラベル対象試料のクラス先行推定について検討した。
情報源データについては,正のクラスからのサンプルと全人口からのサンプルのみが利用可能であると仮定した(PU学習シナリオ)。
本稿では, 後続確率の推定を回避し, 簡単な幾何学的解釈を有する, クラス前の新しい直接推定手法を提案する。
これはカーネル埋め込みと共に分布マッチング技術に基づいており、最適化タスクの明示的な解として得られる。
我々は、その漸近的一貫性と、その未知の先行から逸脱した非漸近的境界を確立し、実際は計算可能である。
合成データおよび実データに対する有限サンプルの挙動を調べた結果,提案手法は,提案手法と組み合わせて,提案手法が競合相手と同等かそれ以上の精度で動作することを示す。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning [49.94607673097326]
ラベルなしデータの分散に関する前提を前提としない、高度に適応可能なフレームワークをSimProとして提案する。
我々のフレームワークは確率モデルに基づいており、期待最大化アルゴリズムを革新的に洗練する。
本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-21T03:39:04Z) - Joint empirical risk minimization for instance-dependent
positive-unlabeled data [4.112909937203119]
正とラベルなしのデータ(PU学習)からの学習は、機械学習のタスクとして積極的に研究されている。
目標は、ラベル付きインスタンスとラベルなしインスタンスの一部を含むデータセットに基づいて、バイナリ分類モデルをトレーニングすることだ。
ラベルなし集合は、残りの部分の正と全ての負の観察を含む。
論文 参考訳(メタデータ) (2023-12-27T12:45:12Z) - A Statistical Model for Predicting Generalization in Few-Shot
Classification [6.158812834002346]
一般化誤差を予測するために,特徴分布のガウスモデルを導入する。
提案手法は, 相互検証戦略の離脱など, 代替案よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-13T10:21:15Z) - Open-Sampling: Exploring Out-of-Distribution data for Re-balancing
Long-tailed datasets [24.551465814633325]
深層ニューラルネットワークは通常、トレーニングデータセットが極端なクラス不均衡に苦しむ場合、パフォーマンスが良くない。
近年の研究では、半教師付き方式でアウト・オブ・ディストリビューションデータによる直接トレーニングが一般化性能を損なうことが報告されている。
そこで我々は,オープンセットノイズラベルを用いて学習データセットのクラス前のバランスを再調整する,オープンサンプリングと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-17T14:29:52Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Meta-Learning Conjugate Priors for Few-Shot Bayesian Optimization [0.0]
メタラーニングを用いて情報共役の事前分布の推定を自動化する新しい手法を提案する。
このプロセスから、元のデータ分布の形状パラメータを推定するために、わずかなデータしか必要としない先行データを生成する。
論文 参考訳(メタデータ) (2021-01-03T23:58:32Z) - Performance-Agnostic Fusion of Probabilistic Classifier Outputs [2.4206828137867107]
本稿では,1つのコンセンサスクラス予測を行うために,分類器の確率的出力を組み合わせる手法を提案する。
提案手法は,精度が性能指標である状況において有効である。
キャリブレーションされた確率を出力しないので、そのような確率がさらなる処理に必要となる状況には適さない。
論文 参考訳(メタデータ) (2020-09-01T16:53:29Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。