論文の概要: Detecting Label Noise via Leave-One-Out Cross Validation
- arxiv url: http://arxiv.org/abs/2103.11352v1
- Date: Sun, 21 Mar 2021 10:02:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:47:05.678216
- Title: Detecting Label Noise via Leave-One-Out Cross Validation
- Title(参考訳): 残余1アウトクロスバリデーションによるラベルノイズの検出
- Authors: Yu-Hang Tang, Yuanran Zhu, Wibe A. de Jong
- Abstract要約: クリーンなサンプルと破損したサンプルの混合から実値のノイズラベルを同定し,修正するための簡単なアルゴリズムを提案する。
独立分散を伴う付加的なガウス雑音項をそれぞれと観測されたラベルに関連付けるヘテロ代用ノイズモデルを用いる。
提案手法は, 合成および実世界の科学データを用いた学習において, 劣化したサンプルを特定でき, より良い回帰モデルが得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple algorithm for identifying and correcting real-valued
noisy labels from a mixture of clean and corrupted samples using Gaussian
process regression. A heteroscedastic noise model is employed, in which
additive Gaussian noise terms with independent variances are associated with
each and all of the observed labels. Thus, the method effectively applies a
sample-specific Tikhonov regularization term, generalizing the uniform
regularization prevalent in standard Gaussian process regression. Optimizing
the noise model using maximum likelihood estimation leads to the containment of
the GPR model's predictive error by the posterior standard deviation in
leave-one-out cross-validation. A multiplicative update scheme is proposed for
solving the maximum likelihood estimation problem under non-negative
constraints. While we provide a proof of monotonic convergence for certain
special cases, the multiplicative scheme has empirically demonstrated monotonic
convergence behavior in virtually all our numerical experiments. We show that
the presented method can pinpoint corrupted samples and lead to better
regression models when trained on synthetic and real-world scientific data
sets.
- Abstract(参考訳): 本稿では,ガウス過程回帰法を用いて,クリーン試料と破損試料の混合試料から実値雑音ラベルを同定・修正するための簡易アルゴリズムを提案する。
独立分散を伴う付加的なガウス雑音項をそれぞれと観測されたラベルに関連付けるヘテロ代用ノイズモデルを用いる。
したがって、この方法はサンプル特異的ティホノフ正則化項を効果的に適用し、標準ガウス過程回帰で一般的な一様正則化を一般化する。
最大重み推定を用いた雑音モデルの最適化は、残余単価クロスバリデーションの後方標準偏差によるgprモデルの予測誤差の抑制に繋がる。
非負制約下での最大推定問題の解法として乗算更新方式を提案する。
ある特別な場合に対して単調収束の証明を提供する一方で、乗算スキームは事実上全ての数値実験において単調収束挙動を実証している。
提案手法は, 合成および実世界の科学データを用いた学習において, 劣化したサンプルを特定でき, より良い回帰モデルが得られることを示す。
関連論文リスト
- ROTI-GCV: Generalized Cross-Validation for right-ROTationally Invariant Data [1.194799054956877]
高次元正規化回帰における2つの重要なタスクは、正確な予測のために正規化強度を調整し、サンプル外リスクを推定することである。
問題のある条件下でクロスバリデーションを確実に行うための新しいフレームワーク ROTI-GCV を導入する。
論文 参考訳(メタデータ) (2024-06-17T15:50:00Z) - GLAD: Towards Better Reconstruction with Global and Local Adaptive Diffusion Models for Unsupervised Anomaly Detection [60.78684630040313]
拡散モデルは、特定のノイズを付加したテスト画像の通常の画像を再構成する傾向がある。
世界的視点から見ると、異なる異常による画像再構成の難しさは不均一である。
本稿では,非教師付き異常検出のためのグローバルかつ局所的な適応拡散モデル(GLADと略す)を提案する。
論文 参考訳(メタデータ) (2024-06-11T17:27:23Z) - Convergence of uncertainty estimates in Ensemble and Bayesian sparse
model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:07:59Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Convergence for score-based generative modeling with polynomial
complexity [9.953088581242845]
我々は、Scoreベースの生成モデルの背後にあるコアメカニックに対する最初の収束保証を証明した。
以前の作品と比較すると、時間的に指数関数的に増加するエラーや、次元の呪いに苦しむエラーは発生しない。
予測器・相関器はどちらの部分のみを使用するよりも収束性が高いことを示す。
論文 参考訳(メタデータ) (2022-06-13T14:57:35Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - Learning Noise Transition Matrix from Only Noisy Labels via Total
Variation Regularization [88.91872713134342]
本稿では,雑音遷移行列を推定し,同時に分類器を学習する理論的基礎付け手法を提案する。
提案手法の有効性を,ベンチマークおよび実世界のデータセットを用いた実験により示す。
論文 参考訳(メタデータ) (2021-02-04T05:09:18Z) - Generalized Multi-Output Gaussian Process Censored Regression [7.111443975103331]
本稿では、GPの非パラメトリックな柔軟性と、入力依存ノイズ条件下での相関出力からの情報を活用する能力を組み合わせたヘテロスセダスティック多出力ガウスプロセスモデルを提案する。
結果として、柔軟性を追加することで、潜在的に複雑な検閲ダイナミクスの下で、モデルが基盤となる非検閲プロセス(すなわち、真)をより正確に見積もることができるかが示される。
論文 参考訳(メタデータ) (2020-09-10T12:46:29Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。