論文の概要: Prior shift estimation for positive unlabeled data through the lens of kernel embedding
- arxiv url: http://arxiv.org/abs/2502.21194v2
- Date: Fri, 12 Sep 2025 08:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 14:04:02.920411
- Title: Prior shift estimation for positive unlabeled data through the lens of kernel embedding
- Title(参考訳): カーネル埋め込みレンズによる正のラベルなしデータの事前シフト推定
- Authors: Jan Mielniczuk, Wojciech Rejchel, Paweł Teisseyre,
- Abstract要約: 本研究は, 原産地と異なる可能性のある未ラベル対象標本のクラス推定について検討した。
両集団における後部確率の推定を回避した,クラス前の新しい直接推定手法を提案する。
この提案は、競合他社と同等かそれ以上に一貫して機能することを示す。
- 参考スコア(独自算出の注目度): 0.3568466510804538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study estimation of a class prior for unlabeled target samples which possibly differs from that of source population. Moreover, it is assumed that the source data is partially observable: only samples from the positive class and from the whole population are available (PU learning scenario). We introduce a novel direct estimator of a class prior which avoids estimation of posterior probabilities in both populations and has a simple geometric interpretation. It is based on a distribution matching technique together with kernel embedding in a Reproducing Kernel Hilbert Space and is obtained as an explicit solution to an optimisation task. We establish its asymptotic consistency as well as an explicit non-asymptotic bound on its deviation from the unknown prior, which is calculable in practice. We study finite sample behaviour for synthetic and real data and show that the proposal works consistently on par or better than its competitors.
- Abstract(参考訳): 本研究は, 原産地と異なる可能性のある未ラベル対象標本のクラス推定について検討した。
さらに、ソースデータは部分的に観測可能であると仮定し、正のクラスからのサンプルと全人口からのサンプルのみが利用可能である(PU学習シナリオ)。
両集団における後部確率の推定を回避し, 簡単な幾何学的解釈を有する, クラス事前の新たな直接推定手法を提案する。
この手法はカーネルヒルベルト空間にカーネルを埋め込んだ分散マッチング手法に基づいており、最適化タスクの明示的な解として得られる。
我々は、その漸近的一貫性と、その未知の先行から逸脱することによる明示的な非漸近的境界を確立し、実際は計算可能である。
合成データおよび実データに対する有限サンプルの挙動について検討し,提案手法が競合より一貫して動作することを示す。
関連論文リスト
- Quantifying Uncertainty in the Presence of Distribution Shifts [18.273290530700567]
ニューラルネットワークは正確な予測を行うが、しばしば信頼できる不確実性推定を提供することができない。
我々は不確実性推定のためのベイズ的枠組みを提案する。
本手法は,合成データと実世界のデータの両方で評価する。
論文 参考訳(メタデータ) (2025-06-23T04:30:36Z) - Active Data Sampling and Generation for Bias Remediation [0.0]
トレーニング済みのクラスを微調整する際、不公平な分類を補うために、サンプリングとデータ生成の混合戦略が提案されている。
視覚的セマンティック・ロール・ラベリングのためのDeep Modelsのケーススタディとして、提案手法は90/10の不均衡から始まるシミュレートされたジェンダーバイアスを完全に解決することができる。
論文 参考訳(メタデータ) (2025-03-26T10:42:15Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning [49.94607673097326]
ラベルなしデータの分散に関する前提を前提としない、高度に適応可能なフレームワークをSimProとして提案する。
我々のフレームワークは確率モデルに基づいており、期待最大化アルゴリズムを革新的に洗練する。
本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-21T03:39:04Z) - Joint empirical risk minimization for instance-dependent
positive-unlabeled data [4.112909937203119]
正とラベルなしのデータ(PU学習)からの学習は、機械学習のタスクとして積極的に研究されている。
目標は、ラベル付きインスタンスとラベルなしインスタンスの一部を含むデータセットに基づいて、バイナリ分類モデルをトレーニングすることだ。
ラベルなし集合は、残りの部分の正と全ての負の観察を含む。
論文 参考訳(メタデータ) (2023-12-27T12:45:12Z) - Open-Sampling: Exploring Out-of-Distribution data for Re-balancing
Long-tailed datasets [24.551465814633325]
深層ニューラルネットワークは通常、トレーニングデータセットが極端なクラス不均衡に苦しむ場合、パフォーマンスが良くない。
近年の研究では、半教師付き方式でアウト・オブ・ディストリビューションデータによる直接トレーニングが一般化性能を損なうことが報告されている。
そこで我々は,オープンセットノイズラベルを用いて学習データセットのクラス前のバランスを再調整する,オープンサンプリングと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-17T14:29:52Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Meta-Learning Conjugate Priors for Few-Shot Bayesian Optimization [0.0]
メタラーニングを用いて情報共役の事前分布の推定を自動化する新しい手法を提案する。
このプロセスから、元のデータ分布の形状パラメータを推定するために、わずかなデータしか必要としない先行データを生成する。
論文 参考訳(メタデータ) (2021-01-03T23:58:32Z) - Performance-Agnostic Fusion of Probabilistic Classifier Outputs [2.4206828137867107]
本稿では,1つのコンセンサスクラス予測を行うために,分類器の確率的出力を組み合わせる手法を提案する。
提案手法は,精度が性能指標である状況において有効である。
キャリブレーションされた確率を出力しないので、そのような確率がさらなる処理に必要となる状況には適さない。
論文 参考訳(メタデータ) (2020-09-01T16:53:29Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Bayesian Semi-supervised Multi-category Classification under Nonparanormality [2.307581190124002]
セミ教師付き学習はラベル付きデータとラベルなしデータの両方を使用するモデルトレーニング手法である。
本稿では,任意のカテゴリ分類問題に適用可能なベイズ半教師付き学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-11T21:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。