論文の概要: An Interdisciplinary and Cross-Task Review on Missing Data Imputation
- arxiv url: http://arxiv.org/abs/2511.01196v1
- Date: Mon, 03 Nov 2025 03:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.107092
- Title: An Interdisciplinary and Cross-Task Review on Missing Data Imputation
- Title(参考訳): データインプットの欠如に関する学際的・クロスタスク的考察
- Authors: Jicong Fan,
- Abstract要約: データ不足はデータサイエンスにおける根本的な課題であり、幅広い分野における分析と意思決定を妨げる。
何十年もの研究と多くの計算方法にもかかわらず、文学は分野によって断片化されている。
この研究は、欠如メカニズム、単対複数の計算、異なる計算目標を含む中核的な概念を体系的にレビューする。
- 参考スコア(独自算出の注目度): 25.19716862601082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing data is a fundamental challenge in data science, significantly hindering analysis and decision-making across a wide range of disciplines, including healthcare, bioinformatics, social science, e-commerce, and industrial monitoring. Despite decades of research and numerous imputation methods, the literature remains fragmented across fields, creating a critical need for a comprehensive synthesis that connects statistical foundations with modern machine learning advances. This work systematically reviews core concepts-including missingness mechanisms, single versus multiple imputation, and different imputation goals-and examines problem characteristics across various domains. It provides a thorough categorization of imputation methods, spanning classical techniques (e.g., regression, the EM algorithm) to modern approaches like low-rank and high-rank matrix completion, deep learning models (autoencoders, GANs, diffusion models, graph neural networks), and large language models. Special attention is given to methods for complex data types, such as tensors, time series, streaming data, graph-structured data, categorical data, and multimodal data. Beyond methodology, we investigate the crucial integration of imputation with downstream tasks like classification, clustering, and anomaly detection, examining both sequential pipelines and joint optimization frameworks. The review also assesses theoretical guarantees, benchmarking resources, and evaluation metrics. Finally, we identify critical challenges and future directions, emphasizing model selection and hyperparameter optimization, the growing importance of privacy-preserving imputation via federated learning, and the pursuit of generalizable models that can adapt across domains and data types, thereby outlining a roadmap for future research.
- Abstract(参考訳): データ不足はデータサイエンスにおける根本的な課題であり、医療、バイオインフォマティクス、社会科学、電子商取引、産業監視など、幅広い分野における分析と意思決定を著しく妨げている。
何十年にもわたっての研究と多くの計算方法にもかかわらず、この文献は分野によって断片化され続けており、統計基盤と現代の機械学習の進歩を結びつける包括的な合成にとって重要な必要性を生み出している。
この研究は、中核的な概念(欠落メカニズム、単対多重計算、異なる計算目標を含む)を体系的にレビューし、様々な領域における問題特性について検討する。
従来の手法(回帰、EMアルゴリズムなど)を低ランクおよび高ランクの行列補完、ディープラーニングモデル(オートエンコーダ、GAN、拡散モデル、グラフニューラルネットワーク)、大規模言語モデルといったモダンなアプローチに網羅する。
テンソル、時系列、ストリーミングデータ、グラフ構造化データ、カテゴリデータ、マルチモーダルデータといった複雑なデータ型のためのメソッドに特に注目される。
方法論の他に,分類やクラスタリング,異常検出といった下流タスクとの命令処理の不可欠な統合について検討し,逐次パイプラインと共同最適化フレームワークの両方について検討する。
また、理論的保証、ベンチマークリソース、評価指標も評価する。
最後に、モデル選択とハイパーパラメータ最適化の強調、フェデレーション学習によるプライバシ保護命令の重要性の増大、ドメインやデータタイプに適応可能な一般化可能なモデルの追求など、重要な課題と今後の方向性を特定し、今後の研究のロードマップを概説する。
関連論文リスト
- A Survey on Generative Recommendation: Data, Model, and Tasks [55.36322811257545]
ジェネレーティブ・レコメンデーションは、差別的なスコアではなく、世代としてのレコメンデーションを再認識する。
この調査は、データ、モデル、タスク次元にまたがる統合された三部構成のフレームワークを通じて包括的な調査を提供する。
世界知識の統合、自然言語理解、推論能力、スケーリング法則、創造的生成の5つの主要な利点を特定します。
論文 参考訳(メタデータ) (2025-10-31T04:02:58Z) - Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - PyTDC: A multimodal machine learning training, evaluation, and inference platform for biomedical foundation models [59.17570021208177]
PyTDCは、マルチモーダルな生物学的AIモデルのための合理化されたトレーニング、評価、推論ソフトウェアを提供する機械学習プラットフォームである。
本稿では、PyTDCのアーキテクチャの構成要素と、我々の知る限り、導入したシングルセルドラッグターゲットMLタスクにおける第一種ケーススタディについて論じる。
論文 参考訳(メタデータ) (2025-05-08T18:15:38Z) - Deep Learning For Time Series Analysis With Application On Human Motion [0.0]
この論文はディープラーニングを活用し、特徴工学による分類を強化し、基礎モデルを導入し、コンパクトで最先端のアーキテクチャを開発する。
我々の貢献は、行動認識とリハビリテーションのための人間の動作分析を含む現実世界のタスクに当てはまる。
プロトタイピングのために,データ不足時の回帰モデルを支援する形状に基づく合成サンプル生成手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T18:01:51Z) - Precision Adaptive Imputation Network : An Unified Technique for Mixed Datasets [0.0]
本研究では,データ再構成の高速化を目的とした新しいアルゴリズムである精度適応型インダクタンスネットワーク(PAIN)を紹介する。
PAINは統計手法、ランダム森林、オートエンコーダを統合する三段階プロセスを採用し、計算精度と効率のバランスを確保する。
この結果は、特に欠如が完全にランダムではない複雑なシナリオにおいて、データ分散を保存し、分析的整合性を維持するPAINの優れた能力を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-18T06:22:27Z) - Deep Learning, Machine Learning, Advancing Big Data Analytics and Management [26.911181864764117]
人工知能、機械学習、ディープラーニングの進歩は、ビッグデータ分析と管理の変革を触媒している。
本研究は,これらの技術の理論的基礎,方法論的進歩,実践的実装について考察する。
研究者、実践家、データ愛好家は、現代のデータ分析の複雑さをナビゲートするツールを利用できる。
論文 参考訳(メタデータ) (2024-12-03T05:59:34Z) - Advancements in Recommender Systems: A Comprehensive Analysis Based on Data, Algorithms, and Evaluation [4.688390900531895]
RSには、アルゴリズム改善、ドメインアプリケーション、ユーザの振る舞いと認識、データ処理とモデリング、社会的影響と倫理の5つの主要な研究トピックが含まれている。
コールドスタート、データスパシティ、データ中毒といったデータ関連の問題、関心の漂流、デバイスとクラウドのコラボレーション、非因果駆動、マルチタスクの競合といったアルゴリズム上の問題には、顕著な影響がある。
収集された文献は主に主要な国際データベースに基づいており、今後の研究は今後さらに拡大していく予定である。
論文 参考訳(メタデータ) (2024-07-10T14:02:21Z) - A Survey on Diffusion Models for Time Series and Spatio-Temporal Data [92.1255811066468]
時系列およびS時間データにおける拡散モデルの使用について概観し、それらをモデル、タスクタイプ、データモダリティ、実用的なアプリケーションドメインで分類する。
我々は拡散モデルを無条件型と条件付き型に分類し、時系列とS時間データを別々に議論する。
本調査は,医療,レコメンデーション,気候,エネルギー,オーディオ,交通など,さまざまな分野の応用を幅広くカバーしている。
論文 参考訳(メタデータ) (2024-04-29T17:19:40Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。