論文の概要: Imputation-free Learning of Tabular Data with Missing Values using Incremental Feature Partitions in Transformer
- arxiv url: http://arxiv.org/abs/2504.14610v4
- Date: Thu, 04 Sep 2025 14:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.713237
- Title: Imputation-free Learning of Tabular Data with Missing Values using Incremental Feature Partitions in Transformer
- Title(参考訳): 変圧器におけるインクリメンタル特徴分割を用いた欠落値付き語彙データの命令なし学習
- Authors: Manar D. Samad, Kazi Fuad B. Akhter, Shourav B. Rabbani, Ibna Kowsar,
- Abstract要約: 本稿では,グラフデータに対する命令なしインクリメンタルアテンション学習(IFIAL)手法を提案する。
一対の注目マスクを変圧器に導出して、欠落した値を入力したり初期化したりすることなく、データを直接合理化する。
実験は、不足値の計算を含む手法と比較して、異なる値の型やレートに対するIFIALの頑健さを裏付けるものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tabular data sets with varying missing values are prepared for machine learning using an arbitrary imputation strategy. Synthetic values generated by imputation models often raise concerns about data quality and the reliability of data-driven outcomes. To address these concerns, this article proposes an imputation-free incremental attention learning (IFIAL) method for tabular data. A pair of attention masks is derived and retrofitted to a transformer to directly streamline tabular data without imputing or initializing missing values. The proposed method incrementally learns partitions of overlapping and fixed-size feature sets to enhance the efficiency and performance of the transformer. The average classification performance rank order across 17 diverse tabular data sets highlights the superiority of IFIAL over 11 state-of-the-art learning methods with or without missing value imputations. Further experiments substantiate the robustness of IFIAL against varying missing value types and rates compared to methods involving missing value imputation. Our analysis reveals that a feature partition size of half the original feature space is, both computationally and in terms of accuracy, the best choice for the proposed incremental learning. The proposed method is one of the first solutions to enable deep attention learning of tabular data without requiring missing-value imputation. The source code for this paper is publicly available.
- Abstract(参考訳): 任意の計算戦略を用いて、異なる値のタブラルデータセットを機械学習に準備する。
計算モデルによって生成された合成値は、しばしばデータ品質とデータ駆動結果の信頼性に関する懸念を引き起こす。
これらの問題に対処するため,本論文では,グラフデータに対する命令なしインクリメンタルアテンション学習(IFIAL)手法を提案する。
一対の注目マスクを変換器に導出して、欠落した値を入力したり初期化したりすることなく、表データを直接合理化する。
提案手法は、重なり合う特徴集合と固定サイズの特徴集合の分割を漸進的に学習し、変換器の効率と性能を向上させる。
17種類の表付きデータセットの平均的な分類性能ランキングは、値計算の欠如の有無にかかわらず、11以上の最先端の学習方法よりもIFIALの方が優れていることを強調している。
さらに、IFIALのロバスト性は、欠落値の計算を含む手法と比較して、様々な欠落値の型やレートに対して実証される。
解析の結果、元の特徴空間の半分の特徴分割サイズは、計算的にも精度的にも、提案した漸進的学習の最良の選択であることがわかった。
提案手法は,欠落値の計算を必要とせず,表型データの深い注意学習を可能にする最初の方法の1つである。
本論文のソースコードは公開されている。
関連論文リスト
- Transductive Model Selection under Prior Probability Shift [49.56191463229252]
トランスダクティブ・ラーニング(Transductive learning)とは、ラベリングを必要とする未学習データを有限セットとし、トレーニング時に利用できる教師付き機械学習タスクである。
本稿では,データに事前の確率シフトを示す場合のモデル選択を行うための,トランスダクティブな分類コンテキストに合わせた手法を提案する。
論文 参考訳(メタデータ) (2025-07-30T13:03:24Z) - DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework [0.0]
最もよく使われる統計的および機械学習の手法は、欠落率が高くランダムではない場合に、不効率である可能性がある。
本稿では,欠落した値を再構築する新しい枠組みにおいて,表データの行と列の注意を機能間およびサンプル間の注意として検討する。
提案手法では,比較学習フレームワーク内でのCutMixデータ拡張を用いて,欠落値推定の不確実性を改善する。
論文 参考訳(メタデータ) (2025-01-19T01:10:18Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - An End-to-End Model for Time Series Classification In the Presence of Missing Values [25.129396459385873]
時系列分析では,データ不足による時系列分類が問題となっている。
本研究では,データ計算と表現学習を単一のフレームワーク内で統一するエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-11T19:39:12Z) - Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets [1.02138250640885]
NAIM(Not Another Imputation Method)は、従来の計算手法を使わずに欠落した値を扱うために設計されたトランスフォーマーベースのモデルである。
NAIMは、欠落した値を出力する必要性を回避し、利用可能なデータから効果的に学習する能力は、2つの主要な技術に依存している。
NAIMを利用可能な5つのデータセット上で広範囲に評価し、最先端の機械学習モデルと5つのディープラーニングモデルよりも優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2024-07-16T09:43:47Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Data Imputation by Pursuing Better Classification: A Supervised Kernel-Based Method [33.56136381435839]
本稿では, 監視情報を効果的に活用し, 欠落したデータを分類する手法を提案する。
我々のアルゴリズムは、データの60%以上が欠落している場合、他の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-05-13T14:44:02Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Iterative missing value imputation based on feature importance [6.300806721275004]
我々は特徴量を考慮した計算手法を考案した。
このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。
これらのデータセットの結果は,提案手法が既存の5つの計算アルゴリズムより優れていることを一貫して示している。
論文 参考訳(メタデータ) (2023-11-14T09:03:33Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Imputation of missing values in multi-view data [0.24739484546803336]
多視点学習のための既存の累積ペナル化ロジスティック回帰アルゴリズムに基づく新しい計算法を提案する。
シミュレーションデータセットと実データアプリケーションにおいて,新しい計算手法の性能と既存計算アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2022-10-26T05:19:30Z) - Leachable Component Clustering [10.377914682543903]
本研究では,非完全データのクラスタリングに対する新たなアプローチとして,リーチ可能なコンポーネントクラスタリングを提案する。
提案手法はベイズアライメントを用いてデータ計算を処理し,理論上失われたパターンを収集する。
いくつかの人工不完全データセットの実験により、提案手法は、他の最先端アルゴリズムと比較して優れた性能を示すことができることを示した。
論文 参考訳(メタデータ) (2022-08-28T13:13:17Z) - Continual Learning For On-Device Environmental Sound Classification [63.81276321857279]
デバイス上での環境音の分類のための簡易かつ効率的な連続学習法を提案する。
本手法は,サンプルごとの分類の不確実性を測定することにより,トレーニングの履歴データを選択する。
論文 参考訳(メタデータ) (2022-07-15T12:13:04Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。