論文の概要: Generative Modeling under Non-Monotonic MAR Missingness via Approximate Wasserstein Gradient Flows
- arxiv url: http://arxiv.org/abs/2604.04567v1
- Date: Mon, 06 Apr 2026 09:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.164586
- Title: Generative Modeling under Non-Monotonic MAR Missingness via Approximate Wasserstein Gradient Flows
- Title(参考訳): 近似ワッサースタイン勾配流による非単調MAR欠如時の生成モデル
- Authors: Gitte Kremling, Jeffrey Näf, Johannes Lederer,
- Abstract要約: MAR(Missing at Random)の値を持つデータセットから完全なデータセットを生成するための原則的反復法を提案する。
FLOWGEMは、観測されたデータ分布と、異なる欠落パターンにおける生成したサンプルの分布との予測KL(Kullback-Leibler)のばらつきを最小化する。
これは、モノトニックなMARメカニズムの挑戦的なケースを含む、さまざまな設定で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 6.221876252052772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence of missing values in data science poses a substantial risk to any further analyses. Despite a wealth of research, principled nonparametric methods to deal with general non-monotone missingness are still scarce. Instead, ad-hoc imputation methods are often used, for which it remains unclear whether the correct distribution can be recovered. In this paper, we propose FLOWGEM, a principled iterative method for generating a complete dataset from a dataset with values Missing at Random (MAR). Motivated by convergence results of the ignoring maximum likelihood estimator, our approach minimizes the expected Kullback-Leibler (KL) divergence between the observed data distribution and the distribution of the generated sample over different missingness patterns. To minimize the KL divergence, we employ a discretized particle evolution of the corresponding Wasserstein Gradient Flow, where the velocity field is approximated using a local linear estimator of the density ratio. This construction yields a data generation scheme that iteratively transports an initial particle ensemble toward the target distribution. Simulation studies and real-data benchmarks demonstrate that FLOWGEM achieves state-of-the-art performance across a range of settings, including the challenging case of non-monotonic MAR mechanisms. Together, these results position FLOWGEM as a principled and practical alternative to existing imputation methods, and a decisive step towards closing the gap between theoretical rigor and empirical performance.
- Abstract(参考訳): データサイエンスにおける欠落した値の頻度は、さらなる分析に重大なリスクをもたらす。
多くの研究にもかかわらず、一般的な非単調な欠損に対処する原則的な非パラメトリックな方法はまだ乏しい。
代わりに、しばしばアドホックな計算法が使われ、正しい分布を復元できるかどうかは不明である。
本稿では,MAR(Missing at Random)を用いたデータセットから完全なデータセットを生成するための原則的反復手法であるFLOWGEMを提案する。
本手法は, 最大極大推定器の収束結果に基づいて, 観測されたデータ分布と, 生成したサンプルの分布の相違点の予測値(KL)を最小化する。
KL分散を最小化するために, 密度比の局所線形推定器を用いて速度場を近似する, 対応するワッサーシュタイン勾配流の離散化粒子進化を用いる。
この構成により、初期粒子アンサンブルを目標分布に向けて反復的に輸送するデータ生成方式が得られる。
シミュレーション研究と実データベンチマークにより、FLOWGEMは、モノトニックMAR機構の難易度を含む、さまざまな設定で最先端のパフォーマンスを達成することを示した。
これらの結果は、FLOWGEMを既存の計算手法の原則的かつ実用的な代替品として位置づけ、理論厳密性と経験的性能のギャップを埋めるための決定的なステップである。
関連論文リスト
- Flow Matching is Adaptive to Manifold Structures [32.55405572762157]
フローマッチングは拡散に基づく生成モデルに代わるシミュレーションベースである。
フローマッチングがデータ幾何学にどのように適応し、次元の呪いを回避するかを示す。
論文 参考訳(メタデータ) (2026-02-25T23:52:32Z) - Dimension-free error estimate for diffusion model and optimal scheduling [22.20348860913421]
拡散生成モデルは、経験的に観察された分布から合成データを生成するための強力なツールとして登場した。
従来の分析では、生成したデータと真のデータ分布の誤差を、ワッサーシュタイン距離やクルバック・リーバーの偏差の観点から定量化していた。
本研究では, 生成したデータ分布と真のデータ分布との相違点に有意な次元自由境界を導出する。
論文 参考訳(メタデータ) (2025-12-01T15:58:20Z) - On the Wasserstein Convergence and Straightness of Rectified Flow [54.580605276017096]
Rectified Flow (RF) は、ノイズからデータへの直流軌跡の学習を目的とした生成モデルである。
RFのサンプリング分布とターゲット分布とのワッサーシュタイン距離に関する理論的解析を行った。
本稿では,従来の経験的知見と一致した1-RFの特異性と直線性を保証する一般的な条件について述べる。
論文 参考訳(メタデータ) (2024-10-19T02:36:11Z) - Spatially-Aware Diffusion Models with Cross-Attention for Global Field Reconstruction with Sparse Observations [1.371691382573869]
フィールド再構成タスクにおけるスコアベース拡散モデルの開発と拡張を行う。
本研究では,観測領域と観測領域の間のトラクタブルマッピングを構築するための条件符号化手法を提案する。
本研究では, モデルが再現可能かどうかを把握し, 融合結果の精度を向上する能力を示す。
論文 参考訳(メタデータ) (2024-08-30T19:46:23Z) - Statistically Optimal Generative Modeling with Maximum Deviation from the Empirical Distribution [2.1146241717926664]
本稿では, 左非可逆なプッシュフォワード写像に制約されたワッサーシュタインGANが, 複製を回避し, 経験的分布から著しく逸脱する分布を生成することを示す。
我々の最も重要な寄与は、生成分布と経験的分布の間のワッサーシュタイン-1距離の有限サンプル下界を与える。
また、生成分布と真のデータ生成との距離に有限サンプル上限を確立する。
論文 参考訳(メタデータ) (2023-07-31T06:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。