論文の概要: M$^3$-Impute: Mask-guided Representation Learning for Missing Value Imputation
- arxiv url: http://arxiv.org/abs/2410.08794v1
- Date: Fri, 11 Oct 2024 13:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 22:05:43.530861
- Title: M$^3$-Impute: Mask-guided Representation Learning for Missing Value Imputation
- Title(参考訳): M$^3$-Impute:Msk-guided Representation Learning for Missing Value Imputation
- Authors: Zhongyi Yu, Zhenghao Wu, Shuhan Zhong, Weifeng Su, S. -H. Gary Chan, Chul-Ho Lee, Weipeng Zhuo,
- Abstract要約: M$3$-Imputeは、不足情報や新しいマスキング手法との相関性を明示的に活用することを目的としている。
実験の結果,M$3$-Imputeは平均20点,第2bのMAEスコアが4点であった。
- 参考スコア(独自算出の注目度): 12.174699459648842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing values are a common problem that poses significant challenges to data analysis and machine learning. This problem necessitates the development of an effective imputation method to fill in the missing values accurately, thereby enhancing the overall quality and utility of the datasets. Existing imputation methods, however, fall short of explicitly considering the `missingness' information in the data during the embedding initialization stage and modeling the entangled feature and sample correlations during the learning process, thus leading to inferior performance. We propose M$^3$-Impute, which aims to explicitly leverage the missingness information and such correlations with novel masking schemes. M$^3$-Impute first models the data as a bipartite graph and uses a graph neural network to learn node embeddings, where the refined embedding initialization process directly incorporates the missingness information. They are then optimized through M$^3$-Impute's novel feature correlation unit (FRU) and sample correlation unit (SRU) that effectively captures feature and sample correlations for imputation. Experiment results on 25 benchmark datasets under three different missingness settings show the effectiveness of M$^3$-Impute by achieving 20 best and 4 second-best MAE scores on average.
- Abstract(参考訳): データ分析と機械学習に重大な課題をもたらす一般的な問題である。
この問題は、欠落した値を正確に埋める効果的な計算法の開発を必要とし、それによってデータセットの全体的な品質と有用性を向上する。
しかし、既存の計算手法では、埋め込み初期化段階におけるデータの「欠落」情報を明示的に考慮し、学習過程における絡み合った特徴とサンプル相関をモデル化するに足りず、性能が低下する。
M$^3$-Imputeを提案し、新しいマスキング手法との相関関係を明確化することを目的としている。
M$^3$-Imputeはまずデータを二部グラフとしてモデル化し、グラフニューラルネットワークを用いてノード埋め込みを学習する。
次に,M$^3$-Impute の新規特徴相関ユニット (FRU) とサンプル相関ユニット (SRU) を用いて最適化し,特徴相関とサンプル相関を効果的に捉える。
M$^3$-Imputeの有効性は,M$^3$-Imputeが平均20点,第2best MAEが平均4点であった。
関連論文リスト
- SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training [12.745160748376794]
本稿では,データセットの整合性を維持しつつ,データのサンプリング重量を高い共通度で選択的に削減するソフトデ重複手法を提案する。
このアプローチの中心にあるのは、重複の度合いを定量化する指標である"データ共通性"(data commonness)の概念です。
経験的分析により、この手法はトレーニング効率を著しく改善し、必要なトレーニングステップを少なくとも26%減らすことなく、同等のパープレキシティスコアを達成できることが示されている。
論文 参考訳(メタデータ) (2024-07-09T08:26:39Z) - Imputation with Inter-Series Information from Prototypes for Irregular
Sampled Time Series [44.12943317707651]
本稿では,不規則なサンプル時系列の欠落値を計算するために,シリーズ内情報とシリーズ間情報を統合したプロトタイプリカレントインプットModElであるPRIMEを提案する。
本フレームワークは、シリーズ間情報を学ぶためのプロトタイプメモリモジュールと、インキュベーションのためのプロトタイプ情報を利用する双方向ゲートリカレントユニットと、インキュベーションを調整するための注意深いリカレントモジュールとを備える。
論文 参考訳(メタデータ) (2024-01-14T10:51:30Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Towards a methodology for addressing missingness in datasets, with an
application to demographic health datasets [0.0]
本稿では, 合成データセット生成, 欠落データ計算, 深層学習を組み合わせることで, 欠落データ問題に対処する手法を提案する。
以上の結果から, 合成データセットとインプットデータセットでトレーニングしたモデルでは, 精度が 83 %$と 80 %$ on $a) $ an unseen real dataset and $b)$ an unseen reserve synthetic test dataset と予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-05T09:02:30Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - ELMV: an Ensemble-Learning Approach for Analyzing Electrical Health
Records with Significant Missing Values [4.9810955364960385]
本稿では,ELMV(Ensemble-Learning for Missing Value)フレームワークを提案する。
ELMVは、重要な特徴識別のための現実世界の医療データと、結果予測の欠落率の異なるシミュレーションデータのバッチで評価されている。
論文 参考訳(メタデータ) (2020-06-25T06:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。