論文の概要: Meta-Imputation Balanced (MIB): An Ensemble Approach for Handling Missing Data in Biomedical Machine Learning
- arxiv url: http://arxiv.org/abs/2509.03316v1
- Date: Wed, 03 Sep 2025 13:49:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.534164
- Title: Meta-Imputation Balanced (MIB): An Ensemble Approach for Handling Missing Data in Biomedical Machine Learning
- Title(参考訳): Meta-Imputation Balanced (MIB): バイオメディカル機械学習におけるミスデータ処理のためのアンサンブルアプローチ
- Authors: Fatemeh Azad, Zoran Bosnić, Matjaž Kukar,
- Abstract要約: 本稿では,複数のベースインプタの出力を組み合わさって,不足値をより正確に予測するメタインプット手法を提案する。
私たちの研究は、計算処理におけるアンサンブル学習の可能性を強調し、より堅牢でモジュール化され、解釈可能な前処理パイプラインの道を開く。
- 参考スコア(独自算出の注目度): 0.41292255339309664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing data represents a fundamental challenge in machine learning applications, often reducing model performance and reliability. This problem is particularly acute in fields like bioinformatics and clinical machine learning, where datasets are frequently incomplete due to the nature of both data generation and data collection. While numerous imputation methods exist, from simple statistical techniques to advanced deep learning models, no single method consistently performs well across diverse datasets and missingness mechanisms. This paper proposes a novel Meta-Imputation approach that learns to combine the outputs of multiple base imputers to predict missing values more accurately. By training the proposed method called Meta-Imputation Balanced (MIB) on synthetically masked data with known ground truth, the system learns to predict the most suitable imputed value based on the behavior of each method. Our work highlights the potential of ensemble learning in imputation and paves the way for more robust, modular, and interpretable preprocessing pipelines in real-world machine learning systems.
- Abstract(参考訳): データ不足は機械学習アプリケーションにおける根本的な課題であり、しばしばモデルの性能と信頼性を低下させる。
この問題は、バイオインフォマティクスや臨床機械学習のような分野では特に深刻であり、データセットはデータ生成とデータ収集の両方の性質のため、しばしば不完全である。
単純な統計的手法から高度なディープラーニングモデルに至るまで、多くの計算方法が存在するが、多様なデータセットや欠落メカニズムに対して一貫して優れた性能を発揮する方法は存在しない。
本稿では,複数のベースインプタの出力を組み合わせたメタインプット手法を提案する。
提案手法は, 合成マスキングしたデータに対して, メタイミューテーションバランスド (MIB) と呼ばれる手法を訓練することにより, それぞれの手法の振る舞いに基づいて最も適切なインプット値を予測することを学習する。
私たちの研究は、計算処理におけるアンサンブル学習の可能性を強調し、現実世界の機械学習システムにおいて、より堅牢でモジュール化され、解釈可能な前処理パイプラインの道を開く。
関連論文リスト
- MARIA: a Multimodal Transformer Model for Incomplete Healthcare Data [1.02138250640885]
MARIAはトランスフォーマーベースのディープラーニングモデルであり、欠けているデータ問題に対処するために設計されている。
命令に依存する従来のアプローチとは異なり、MARIAはマスク付き自己注意機構を使用している。
MARIAは、さまざまなレベルのデータ不完全性に対するパフォーマンスとレジリエンスの観点から、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-19T13:00:03Z) - In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文 参考訳(メタデータ) (2024-01-07T01:57:41Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Two ways towards combining Sequential Neural Network and Statistical
Methods to Improve the Prediction of Time Series [0.34265828682659694]
本稿では,データ特徴の統計的抽出を生かした2つの方法,分解に基づく方法,および方法を提案する。
我々は, 時系列データを用いて, 安定性の異なる提案を評価した。
性能評価の結果、どちらの手法もモデルと学習を別々に使用する既存のスキームより優れていることが示された。
論文 参考訳(メタデータ) (2021-09-30T20:34:58Z) - Using Data Assimilation to Train a Hybrid Forecast System that Combines
Machine-Learning and Knowledge-Based Components [52.77024349608834]
利用可能なデータがノイズの多い部分測定の場合,カオスダイナミクスシステムのデータ支援予測の問題を検討する。
動的システムの状態の部分的測定を用いることで、不完全な知識ベースモデルによる予測を改善するために機械学習モデルを訓練できることを示す。
論文 参考訳(メタデータ) (2021-02-15T19:56:48Z) - Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。
ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。
私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文 参考訳(メタデータ) (2020-12-15T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。