論文の概要: To Predict or Not To Predict? Proportionally Masked Autoencoders for Tabular Data Imputation
- arxiv url: http://arxiv.org/abs/2412.19152v1
- Date: Thu, 26 Dec 2024 10:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:32.183713
- Title: To Predict or Not To Predict? Proportionally Masked Autoencoders for Tabular Data Imputation
- Title(参考訳): 予測するべきかどうか? タブラルデータインプットのための多種多様なマスク付きオートエンコーダ
- Authors: Jungkyu Kim, Kibok Lee, Taeyoung Park,
- Abstract要約: マスク付きオートエンコーダ(MAE)の比例マスキング戦略を提案する。
具体的には、まず、観測されたデータセットの比率に基づいて、欠落の統計を計算する。
そして、これらの統計値に一致したマスクを生成し、マスキング後に欠落の分布を確実に保持する。
- 参考スコア(独自算出の注目度): 5.541591807276181
- License:
- Abstract: Masked autoencoders (MAEs) have recently demonstrated effectiveness in tabular data imputation. However, due to the inherent heterogeneity of tabular data, the uniform random masking strategy commonly used in MAEs can disrupt the distribution of missingness, leading to suboptimal performance. To address this, we propose a proportional masking strategy for MAEs. Specifically, we first compute the statistics of missingness based on the observed proportions in the dataset, and then generate masks that align with these statistics, ensuring that the distribution of missingness is preserved after masking. Furthermore, we argue that simple MLP-based token mixing offers competitive or often superior performance compared to attention mechanisms while being more computationally efficient, especially in the tabular domain with the inherent heterogeneity. Experimental results validate the effectiveness of the proposed proportional masking strategy across various missing data patterns in tabular datasets. Code is available at: \url{https://github.com/normal-kim/PMAE}.
- Abstract(参考訳): Masked Autoencoders (MAEs) は近年, 表型データ計算の有効性を実証している。
しかし、表形式のデータ固有の不均一性のため、MAEで一般的に使用される均一なランダムマスキング戦略は、欠落の分布を妨害し、最適以下の性能をもたらす。
そこで本研究では,MAEに対する比例マスキング戦略を提案する。
具体的には、まず、データセットの観測された割合に基づいて欠落の統計を計算し、これらの統計と一致するマスクを生成し、マスキング後に欠落の分布が保存されることを保証する。
さらに、単純なMLPベースのトークンミキシングは、特に本質的に不均一な表領域において、より計算的に効率的でありながら、注意機構と比較して、競争力や性能に優れていると論じる。
実験により,表付きデータセットにおける種々の欠落データパターン間の比例マスキング手法の有効性が検証された。
コードは以下の通り: \url{https://github.com/normal-kim/PMAE}。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - ReMasker: Imputing Tabular Data with Masked Autoencoding [16.309069766467072]
ReMaskerは、マスク付き自動符号化フレームワークを拡張して、表形式のデータに欠落した値を出力する新しい方法である。
ReMaskerは、計算精度と実用性の両方の観点から最先端の手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-25T01:03:45Z) - Prediction with Incomplete Data under Agnostic Mask Distribution Shift [35.86200694774949]
分布シフトが存在する場合,不完全なデータによる予測について検討する。
我々は各マスクに対して、不変な最適予測器が存在するという観測を活用している。
本稿では,StableMissと呼ばれる新しい予測手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:06:06Z) - RARE: Robust Masked Graph Autoencoder [45.485891794905946]
Masked graph autoencoder (MGAE) は、有望な自己教師付きグラフ事前学習(SGP)パラダイムとして登場した。
本稿では,ロバストmAsked gRaph autoEncoder (RARE) と呼ばれる新しいSGP手法を提案する。
論文 参考訳(メタデータ) (2023-04-04T03:35:29Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Probabilistic fine-tuning of pruning masks and PAC-Bayes self-bounded
learning [16.526326919313924]
本研究では, プルーニングマスクの損失を最適化することにより, プルーニングマスクの学習方法を検討する。
線形回帰の設定における誘導適応予測器のトレーニングダイナミクスを解析する。
PAC-Bayes一般化誤差境界は, 先行データと後続データとの間の特徴アライメントの変化の大きさによって制御されることを示す。
論文 参考訳(メタデータ) (2021-10-22T14:25:22Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。