論文の概要: Classification of datasets with imputed missing values: does imputation
quality matter?
- arxiv url: http://arxiv.org/abs/2206.08478v1
- Date: Thu, 16 Jun 2022 22:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-21 05:43:14.856252
- Title: Classification of datasets with imputed missing values: does imputation
quality matter?
- Title(参考訳): 暗示的欠落値を持つデータセットの分類:計算品質は重要か?
- Authors: Tolou Shadbahr and Michael Roberts and Jan Stanczuk and Julian Gilbey
and Philip Teare, S\"oren Dittmer, Matthew Thorpe, Ramon Vinas Torne, Evis
Sala, Pietro Lio, Mishal Patel, AIX-COVNET Collaboration, James H.F. Rudd,
Tuomas Mirtti, Antti Rannikko, John A.D. Aston, Jing Tang, Carola-Bibiane
Sch\"onlieb
- Abstract要約: 不完全なデータセットでサンプルを分類するのは簡単ではない。
品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。
本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
- 参考スコア(独自算出の注目度): 2.7646249774183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifying samples in incomplete datasets is a common aim for machine
learning practitioners, but is non-trivial. Missing data is found in most
real-world datasets and these missing values are typically imputed using
established methods, followed by classification of the now complete, imputed,
samples. The focus of the machine learning researcher is then to optimise the
downstream classification performance. In this study, we highlight that it is
imperative to consider the quality of the imputation. We demonstrate how the
commonly used measures for assessing quality are flawed and propose a new class
of discrepancy scores which focus on how well the method recreates the overall
distribution of the data. To conclude, we highlight the compromised
interpretability of classifier models trained using poorly imputed data.
- Abstract(参考訳): 不完全なデータセットにサンプルを分類することは、機械学習実践者にとって共通の目的であるが、簡単ではない。
欠落したデータは、ほとんどの実世界のデータセットに見られ、これらの欠落した値は、通常、確立された方法を使用してインプットされる。
機械学習研究者の焦点は、下流の分類性能を最適化することである。
本研究では,計算の質を考慮することが不可欠であることを強調する。
そこで本研究では,品質評価に一般的に用いられる指標がいかに欠陥があるかを実証し,その方法がデータの全体分布をいかに良く再現するかに注目した,新しい不一致スコアを提案する。
結論として,不適切なインデュートデータを用いて学習した分類器モデルの解釈可能性について考察する。
関連論文リスト
- Enhancing Image Classification in Small and Unbalanced Datasets through Synthetic Data Augmentation [0.0]
本稿では,クラス固有変分オートエンコーダ(VAE)と潜在空間を用いた,識別能力向上のための新しい合成拡張戦略を提案する。
特徴空間ギャップを埋めるリアルで多様な合成データを生成することにより、データの不足とクラス不均衡の問題に対処する。
提案手法は,エゾファゴガストロデュオ内視鏡画像の清潔度を自動評価する方法を訓練し,検証するために作成した321枚の画像の小さなデータセットで検証した。
論文 参考訳(メタデータ) (2024-09-16T13:47:52Z) - Fair Classification with Partial Feedback: An Exploration-Based Data Collection Approach [15.008626822593]
多くの予測的文脈において、真の結果は過去に肯定的に分類されたサンプルに対してのみ観察される。
我々は、利用可能なデータを用いて分類器を訓練し、探索戦略のファミリーを持つアプローチを提案する。
提案手法は,収集した結果データの品質を継続的に向上し,すべてのグループに対して真の正の比率を向上することを示す。
論文 参考訳(メタデータ) (2024-02-17T17:09:19Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Mutual Information Learned Classifiers: an Information-theoretic
Viewpoint of Training Deep Learning Classification Systems [9.660129425150926]
クロスエントロピー損失は、重度のオーバーフィッティング動作を示すモデルを見つけるのに容易である。
本稿では,既存のDNN分類器のクロスエントロピー損失最小化が,基礎となるデータ分布の条件エントロピーを本質的に学習することを証明する。
ラベルと入力の相互情報を学習することで、DNN分類器を訓練する相互情報学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-03T15:09:19Z) - Classification at the Accuracy Limit -- Facing the Problem of Data
Ambiguity [0.0]
データカテゴリの重複から生じる分類精度の理論的限界を示す。
睡眠中のMNISTとヒト脳波記録を用いて、教師なしおよび教師なしのトレーニングによって生成された新しいデータ埋め込みを比較した。
これは、手書き数字や睡眠段階などの人間定義カテゴリーを「自然種」とみなすことができることを示唆している。
論文 参考訳(メタデータ) (2022-06-04T07:00:32Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z) - Imputation of Missing Data with Class Imbalance using Conditional
Generative Adversarial Networks [24.075691766743702]
そこで本研究では,そのクラス固有の特徴に基づいて,欠落したデータを出力する新しい手法を提案する。
CGAIN(Con Conditional Generative Adversarial Imputation Network)は、クラス固有の分布を用いて、欠落したデータをインプットする。
提案手法をベンチマークデータセットで検証し,最先端の計算手法や一般的な計算手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-01T02:26:54Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。