論文の概要: No Imputation of Missing Values In Tabular Data Classification Using Incremental Learning
- arxiv url: http://arxiv.org/abs/2504.14610v1
- Date: Sun, 20 Apr 2025 13:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 23:28:37.331191
- Title: No Imputation of Missing Values In Tabular Data Classification Using Incremental Learning
- Title(参考訳): インクリメンタルラーニングを用いた語彙データ分類における欠落値の計算
- Authors: Manar D. Samad, Kazi Fuad B. Akhter, Shourav B. Rabbani, Ibna Kowsar,
- Abstract要約: 本稿では,グラフデータのインクリメンタル・ラーニング (NIIL) は行わないことを提案する。
提案手法は,アテンションマスクを用いて重なり合う特徴集合の分割を段階的に学習し,アテンションスコアから欠落値を取り除いた。
実験は、欠落値の計算を含む方法と比較して、様々な欠落値タイプやレートに対して、NIILの頑健さを裏付けるものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tabular data sets with varying missing values are prepared for machine learning using an arbitrary imputation strategy. Synthetic values generated by imputation models often concern data stakeholders about computational complexity, data quality, and data-driven outcomes. This paper eliminates these concerns by proposing no imputation incremental learning (NIIL) of tabular data with varying missing value rates and types. The proposed method incrementally learns partitions of overlapping feature sets while using attention masks to exclude missing values from attention scoring. The average classification performance rank order across 15 diverse tabular data sets highlights the superiority of NIIL over 11 state-of-the-art learning methods with or without missing value imputations. Further experiments substantiate the robustness of NIIL against varying missing value types and rates compared to methods that involve the imputation of missing values. Our empirical analysis reveals that a feature partition size of half of the original feature space is, computation-wise and accuracy-wise, the best choice for the proposed incremental learning. The proposed method is one of the first deep learning solutions that can effectively learn tabular data without requiring the imputation of missing values.
- Abstract(参考訳): 任意の計算戦略を用いて、異なる値のタブラルデータセットを機械学習に準備する。
計算モデルによって生成された合成値は、計算複雑性、データ品質、データ駆動結果に関するデータステークホルダーにしばしば関係する。
本論文は, 異なる値率と型を持つ表データのインクリメンタル学習(NIIL)を含まないことで, これらの懸念を解消するものである。
提案手法は,アテンションマスクを用いて重なり合う特徴集合の分割を段階的に学習し,アテンションスコアから欠落値を取り除いた。
15種類の表付きデータセットの平均的な分類性能ランキングは、価値計算の欠如の有無に関わらず、11の最先端の学習方法よりもNIILの方が優れていることを強調している。
さらなる実験は、欠落値の計算を含む方法と比較して、様々な欠落値タイプやレートに対して、NIILの頑健さを裏付けるものである。
我々の経験的分析により、元の特徴空間の半分の機能分割サイズは、計算量的にも精度的にも、提案した漸進的学習の最良の選択であることが明らかとなった。
提案手法は,欠落した値の計算を必要とせず,表形式のデータを効果的に学習できる,最初のディープラーニングソリューションの1つである。
関連論文リスト
- DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework [0.0]
最もよく使われる統計的および機械学習の手法は、欠落率が高くランダムではない場合に、不効率である可能性がある。
本稿では,欠落した値を再構築する新しい枠組みにおいて,表データの行と列の注意を機能間およびサンプル間の注意として検討する。
提案手法では,比較学習フレームワーク内でのCutMixデータ拡張を用いて,欠落値推定の不確実性を改善する。
論文 参考訳(メタデータ) (2025-01-19T01:10:18Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - An End-to-End Model for Time Series Classification In the Presence of Missing Values [25.129396459385873]
時系列分析では,データ不足による時系列分類が問題となっている。
本研究では,データ計算と表現学習を単一のフレームワーク内で統一するエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-11T19:39:12Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Iterative missing value imputation based on feature importance [6.300806721275004]
我々は特徴量を考慮した計算手法を考案した。
このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。
これらのデータセットの結果は,提案手法が既存の5つの計算アルゴリズムより優れていることを一貫して示している。
論文 参考訳(メタデータ) (2023-11-14T09:03:33Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Imputation of missing values in multi-view data [0.24739484546803336]
多視点学習のための既存の累積ペナル化ロジスティック回帰アルゴリズムに基づく新しい計算法を提案する。
シミュレーションデータセットと実データアプリケーションにおいて,新しい計算手法の性能と既存計算アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2022-10-26T05:19:30Z) - Leachable Component Clustering [10.377914682543903]
本研究では,非完全データのクラスタリングに対する新たなアプローチとして,リーチ可能なコンポーネントクラスタリングを提案する。
提案手法はベイズアライメントを用いてデータ計算を処理し,理論上失われたパターンを収集する。
いくつかの人工不完全データセットの実験により、提案手法は、他の最先端アルゴリズムと比較して優れた性能を示すことができることを示した。
論文 参考訳(メタデータ) (2022-08-28T13:13:17Z) - Continual Learning For On-Device Environmental Sound Classification [63.81276321857279]
デバイス上での環境音の分類のための簡易かつ効率的な連続学習法を提案する。
本手法は,サンプルごとの分類の不確実性を測定することにより,トレーニングの履歴データを選択する。
論文 参考訳(メタデータ) (2022-07-15T12:13:04Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。