論文の概要: Imputation using training labels and classification via label imputation
- arxiv url: http://arxiv.org/abs/2311.16877v4
- Date: Fri, 25 Oct 2024 06:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:16.123299
- Title: Imputation using training labels and classification via label imputation
- Title(参考訳): トレーニングラベルを用いたインキュベーションとラベルインキュベーションによる分類
- Authors: Thu Nguyen, Tuan L. Vo, Pål Halvorsen, Michael A. Riegler,
- Abstract要約: 欠落したデータを扱うために,ミスフォレスト計算に基づく分類を提案する。
CBMIは予測されたテストラベルを欠落した値で積み上げ、インプットでラベルを積み重ねる。
CBMIは、入力データのみに基づいて、命令よりもはるかに優れた結果を示す。
- 参考スコア(独自算出の注目度): 4.387724419358174
- License:
- Abstract: Missing data is a common problem in practical data science settings. Various imputation methods have been developed to deal with missing data. However, even though the labels are available in the training data in many situations, the common practice of imputation usually only relies on the input and ignores the label. We propose Classification Based on MissForest Imputation (CBMI), a classification strategy that initializes the predicted test label with missing values and stacks the label with the input for imputation, allowing the label and the input to be imputed simultaneously. In addition, we propose the imputation using labels (IUL) algorithm, an imputation strategy that stacks the label into the input and illustrates how it can significantly improve the imputation quality. Experiments show that CBMI has classification accuracy when the test set contains missing data, especially for imbalanced data and categorical data. Moreover, for both the regression and classification, IUL consistently shows significantly better results than imputation based on only the input data.
- Abstract(参考訳): データ不足は、実践的なデータサイエンス設定において一般的な問題である。
欠落したデータを扱うために様々な計算法が開発されている。
しかし、多くの状況においてラベルはトレーニングデータで利用できるが、インプットの一般的な実践は入力にのみ依存し、ラベルを無視する。
提案するCBMIは,予測されたテストラベルを不一致値で初期化し,インプットでラベルを積み重ね,ラベルとインプットを同時にインプットできる分類戦略である。
さらに,ラベルをインプットに積み重ねるインプット戦略であるラベルアルゴリズム(IUL)を用いて,インプットの品質を大幅に向上させる手法を提案する。
実験により、CBMIは、テストセットが欠落データを含む場合、特に不均衡データや分類データに対して、分類精度を持つことが示された。
さらに、回帰と分類の両方において、IULは入力データのみに基づいて計算結果よりもはるかに良い結果を示す。
関連論文リスト
- Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Partial-Label Regression [54.74984751371617]
部分ラベル学習は、弱い教師付き学習環境であり、各トレーニング例に候補ラベルのセットをアノテートすることができる。
部分ラベル学習に関する従来の研究は、候補ラベルがすべて離散的な分類設定のみに焦点を当てていた。
本稿では,各トレーニング例に実値付き候補ラベルのセットをアノテートした部分ラベル回帰を初めて検討する。
論文 参考訳(メタデータ) (2023-06-15T09:02:24Z) - Detecting Label Errors in Token Classification Data [22.539748563923123]
トークン分類データセットにラベルエラーを含む文を見つけるタスクについて検討する。
予測されたクラス確率に基づいてトークン/文をスコアする,11種類の簡単な手法について検討する。
異なるトークン分類モデルに適用した場合にラベルエラーを含む文を一貫して検出する,単純かつ効果的な手法を同定する。
論文 参考訳(メタデータ) (2022-10-08T05:14:22Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Instance Correction for Learning with Open-set Noisy Labels [145.06552420999986]
オープンセットノイズラベルの処理にはサンプル選択方式を用いる。
廃棄されたデータは間違ったラベルで書かれており、トレーニングには参加していない。
廃棄されたデータのインスタンスを変更して、廃棄されたデータの予測をラベルに一致させる。
論文 参考訳(メタデータ) (2021-06-01T13:05:55Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Harmless label noise and informative soft-labels in supervised
classification [1.6752182911522517]
トレーニング例の手動ラベリングは、教師付き学習の一般的なプラクティスです。
ラベル処理が非自明な難易度である場合、供給されたラベルは接地ラベルと等しくなく、ラベルノイズをトレーニングデータセットに導入する。
特に、分類困難がラベルエラーの唯一の原因である場合、複数のノイズラベルセットは、分類規則の推定により多くの情報を提供することができる。
論文 参考訳(メタデータ) (2021-04-07T02:56:11Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。