論文の概要: Prediction in the presence of response-dependent missing labels
- arxiv url: http://arxiv.org/abs/2103.13555v1
- Date: Thu, 25 Mar 2021 01:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:52:49.631231
- Title: Prediction in the presence of response-dependent missing labels
- Title(参考訳): 応答依存的欠落ラベルの存在下での予測
- Authors: Hyebin Song, Garvesh Raskutti, Rebecca Willett
- Abstract要約: センサー技術の限界は ワイルドファイアデータに ラベルの欠落をもたらします
新しい手法と非ラベルアルゴリズムP(ositive) U(ccurrence) M(agnitude) M(ixture)を開発し、陽性サンプルの発生と検出の可能性を共同で推定します。
- 参考スコア(独自算出の注目度): 28.932172873182115
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In a variety of settings, limitations of sensing technologies or other
sampling mechanisms result in missing labels, where the likelihood of a missing
label in the training set is an unknown function of the data. For example,
satellites used to detect forest fires cannot sense fires below a certain size
threshold. In such cases, training datasets consist of positive and
pseudo-negative observations where pseudo-negative observations can be either
true negatives or undetected positives with small magnitudes. We develop a new
methodology and non-convex algorithm P(ositive) U(nlabeled) - O(ccurrence)
M(agnitude) M(ixture) which jointly estimates the occurrence and detection
likelihood of positive samples, utilizing prior knowledge of the detection
mechanism. Our approach uses ideas from positive-unlabeled (PU)-learning and
zero-inflated models that jointly estimate the magnitude and occurrence of
events. We provide conditions under which our model is identifiable and prove
that even though our approach leads to a non-convex objective, any local
minimizer has optimal statistical error (up to a log term) and projected
gradient descent has geometric convergence rates. We demonstrate on both
synthetic data and a California wildfire dataset that our method out-performs
existing state-of-the-art approaches.
- Abstract(参考訳): 様々な設定において、センシング技術やその他のサンプリング機構の制限は、トレーニングセットに欠落しているラベルがデータの未知の機能である可能性のあるラベルを欠落させる結果となる。
例えば、森林火災を検出するために使用される衛星は、一定の大きさの閾値以下では火災を感知できない。
このような場合、トレーニングデータセットは、偽陰性観測が真の負か、小さな大きさの未検出正のどちらかである、正と偽の負の観測からなる。
我々は,検出機構の事前知識を利用して,正試料の発生と検出の可能性を共同で推定する手法と非凸アルゴリズムP(ositive) U(nlabeled) - O(ccurrence) M(ixture)を開発した。
提案手法では,事象の規模と発生を共同で推定する正の未ラベル学習(PU)モデルとゼロインフレモデルを用いている。
モデルが同定可能な条件を提供し、我々のアプローチが凸でない目的をもたらすとしても、任意の局所最小化器は最適統計誤差(対数項まで)を持ち、投影勾配降下は幾何収束率を持つことを示す。
合成データとカリフォルニアの山火事データセットの両方で、我々の手法は既存の最先端のアプローチよりも優れています。
関連論文リスト
- FUN-AD: Fully Unsupervised Learning for Anomaly Detection with Noisy Training Data [1.0650780147044159]
ラベルなしおよび潜在的に汚染されたトレーニングデータを用いた完全教師なし異常検出のための新しい学習ベースアプローチを提案する。
本手法は, 2つの観測結果から, 正常試料間の対特徴距離が, 異常試料や異種試料間の対特徴距離よりも平均的に小さい可能性が示唆され, 互いに近接する2つの特徴対が等質な対である可能性が示唆された。
本研究は, 近接する近傍距離が信頼度の高いサンプルと異常を区別できることを示す最初の観測結果に基づいて, 反復的に再構成されたメモリバンクを用いた擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2024-11-25T05:51:38Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Uncertainty Measurement of Deep Learning System based on the Convex Hull of Training Sets [0.13265175299265505]
本研究では,訓練データの凸殻に基づくトレーニングモデルの不確実性を測定するTo-hull Uncertainity and Closure Ratioを提案する。
学習したデータの凸船体と見えないサンプルとの間の位置関係を観察し、サンプルが凸船体からどのように外挿されているかを推測することができる。
論文 参考訳(メタデータ) (2024-05-25T06:25:24Z) - Joint empirical risk minimization for instance-dependent
positive-unlabeled data [4.112909937203119]
正とラベルなしのデータ(PU学習)からの学習は、機械学習のタスクとして積極的に研究されている。
目標は、ラベル付きインスタンスとラベルなしインスタンスの一部を含むデータセットに基づいて、バイナリ分類モデルをトレーニングすることだ。
ラベルなし集合は、残りの部分の正と全ての負の観察を含む。
論文 参考訳(メタデータ) (2023-12-27T12:45:12Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Fake It Till You Make It: Near-Distribution Novelty Detection by
Score-Based Generative Models [54.182955830194445]
既存のモデルは、いわゆる"近く分布"設定で失敗するか、劇的な低下に直面します。
本稿では, スコアに基づく生成モデルを用いて, 合成近分布異常データを生成することを提案する。
本手法は,9つのノベルティ検出ベンチマークにおいて,近分布ノベルティ検出を6%改善し,最先端のノベルティ検出を1%から5%パスする。
論文 参考訳(メタデータ) (2022-05-28T02:02:53Z) - Incorporating Semi-Supervised and Positive-Unlabeled Learning for
Boosting Full Reference Image Quality Assessment [73.61888777504377]
フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準で測定することにより、歪み画像の視覚的品質を評価する。
ラベルなしデータは、画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を高めることを奨励する。
本稿では, 半教師付き, 正の未ラベル学習(PU)を用いて, ラベルなしデータを活用し, オフレーヤの悪影響を軽減することを提案する。
論文 参考訳(メタデータ) (2022-04-19T09:10:06Z) - Semi-supervised Salient Object Detection with Effective Confidence
Estimation [35.0990691497574]
本研究では,少数のラベル付きサンプルと多数のラベル付きサンプルにアクセス可能な半教師付きサルエント物体検出法について検討した。
本研究では,条件付きエネルギーベースモデルの潜伏変数を用いて,人体給与ラベルの性質をモデル化する。
ラベル付きサンプルは1/16に過ぎず,最先端の完全教師付きモデルと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2021-12-28T07:14:48Z) - Dealing with Distribution Mismatch in Semi-supervised Deep Learning for
Covid-19 Detection Using Chest X-ray Images: A Novel Approach Using Feature
Densities [0.6882042556551609]
半教師付きディープラーニングは、大きなラベル付きデータセットの魅力的な代替手段である。
実世界の使用状況設定では、ラベル付きデータセットとは異なる分布を示す可能性がある。
これにより、ラベル付きデータセットとラベル付きデータセットの分散ミスマッチが発生します。
論文 参考訳(メタデータ) (2021-08-17T00:35:43Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。