論文の概要: Improved Naive Bayes with Mislabeled Data
- arxiv url: http://arxiv.org/abs/2304.06292v1
- Date: Thu, 13 Apr 2023 06:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 15:31:25.987782
- Title: Improved Naive Bayes with Mislabeled Data
- Title(参考訳): ミスラベルデータによるナイーブベイの改善
- Authors: Qianhan Zeng, Yingqiu Zhu, Xuening Zhu, Feifei Wang, Weichen Zhao,
Shuning Sun, Meng Su, Hansheng Wang
- Abstract要約: テキスト分類のための改良されたネイブベイズ法を提案する。
解析的には単純で、正しいラベルと間違ったラベルに対する主観的な判断は不要である。
シミュレーションおよび実験結果から,改良されたネイブベイズ法は,誤ラベルデータを用いたネイブベイズ法の性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 0.48372723204747653
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Labeling mistakes are frequently encountered in real-world applications. If
not treated well, the labeling mistakes can deteriorate the classification
performances of a model seriously. To address this issue, we propose an
improved Naive Bayes method for text classification. It is analytically simple
and free of subjective judgements on the correct and incorrect labels. By
specifying the generating mechanism of incorrect labels, we optimize the
corresponding log-likelihood function iteratively by using an EM algorithm. Our
simulation and experiment results show that the improved Naive Bayes method
greatly improves the performances of the Naive Bayes method with mislabeled
data.
- Abstract(参考訳): ラベル付けミスは現実世界のアプリケーションで頻繁に発生する。
うまく扱わなければ、ラベル付けミスはモデルの分類性能を著しく悪化させる可能性がある。
そこで本研究では,テキスト分類のためのナイーブベイズ法の改良を提案する。
分析的に単純で、正しいラベルや間違ったラベルに対する主観的な判断がない。
誤りラベルの生成機構を指定することで,emアルゴリズムを用いて対応するlog-likelihood関数を反復的に最適化する。
シミュレーションおよび実験により,改良されたナイーブベイズ法が,誤りラベルデータを用いたナイーブベイズ法の性能を大幅に改善することを示した。
関連論文リスト
- Data-Driven Estimation of the False Positive Rate of the Bayes Binary
Classifier via Soft Labels [25.40796153743837]
本稿では,与えられたデータセットからベイズ分類器の誤り陽性率(FPR)を推定する。
我々は,デノナイジング手法とNadaraya-Watson推定器を利用した効果的なFPR推定器を開発した。
論文 参考訳(メタデータ) (2024-01-27T20:41:55Z) - Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech
Recognition [49.42732949233184]
ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。
損失関数のグラウンドトルースとしてノイズラベルを取ると、最適以下の性能が得られる。
そこで我々は,ノイズの多い擬似ラベル問題に対処するために,代替擬似ラベル方式という新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-12T12:13:52Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Filter and evolve: progressive pseudo label refining for semi-supervised
automatic speech recognition [5.735000563764309]
低品質の擬似ラベルは、決定境界を誤認し、性能を低下させる。
本稿では,低品質な擬似ラベルをフィルタする簡易かつ効果的な手法を提案する。
LibriSpeechの実験では、これらのフィルターされたサンプルにより、洗練されたモデルによりより正確な予測が得られることが示されている。
論文 参考訳(メタデータ) (2022-10-28T16:15:58Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Learning with Noisy Labels by Efficient Transition Matrix Estimation to
Combat Label Miscorrection [3.48062110627933]
ノイズラベルを用いた学習に関する最近の研究は、小さなクリーンデータセットを利用して顕著な性能を示した。
モデルメタラーニングに基づくラベル補正手法は, ハエの雑音ラベルを補正することにより, さらなる性能向上を図っている。
しかし、ラベルの誤りに対する保護は存在せず、性能劣化は避けられない。
本研究では,ラベル遷移行列を高速に学習する頑健で効率的な手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T20:12:17Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Improving Generalization of Deep Fault Detection Models in the Presence
of Mislabeled Data [1.3535770763481902]
ラベルノイズを用いた頑健なトレーニングのための新しい2段階フレームワークを提案する。
最初のステップでは、仮説空間の更新に基づいて、外れ値(ラベルのつかないサンプルを含む)を識別する。
第2のステップでは、識別されたアウトレイラとデータ拡張技術に基づいて、トレーニングデータを修正するための異なるアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-30T12:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。