論文の概要: Impugan: Learning Conditional Generative Models for Robust Data Imputation
- arxiv url: http://arxiv.org/abs/2512.05950v1
- Date: Fri, 05 Dec 2025 18:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.143199
- Title: Impugan: Learning Conditional Generative Models for Robust Data Imputation
- Title(参考訳): Impugan:ロバストデータインプットのための条件付き生成モデル学習
- Authors: Zalish Mahmud, Anantaa Kotal, Aritran Piplai,
- Abstract要約: Impuganは、欠落した値を計算し、異種データセットを統合するための条件付きジェネレーティブ・アドバイサル・ネットワーク(cGAN)である。
推論中、ジェネレータは、利用可能な特徴から欠落したエントリを再構成し、識別器は、インプットされたデータと真を区別してリアリズムを強制する。
- 参考スコア(独自算出の注目度): 0.21847754147782886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incomplete data are common in real-world applications. Sensors fail, records are inconsistent, and datasets collected from different sources often differ in scale, sampling rate, and quality. These differences create missing values that make it difficult to combine data and build reliable models. Standard imputation methods such as regression models, expectation-maximization, and multiple imputation rely on strong assumptions about linearity and independence. These assumptions rarely hold for complex or heterogeneous data, which can lead to biased or over-smoothed estimates. We propose Impugan, a conditional Generative Adversarial Network (cGAN) for imputing missing values and integrating heterogeneous datasets. The model is trained on complete samples to learn how missing variables depend on observed ones. During inference, the generator reconstructs missing entries from available features, and the discriminator enforces realism by distinguishing true from imputed data. This adversarial process allows Impugan to capture nonlinear and multimodal relationships that conventional methods cannot represent. In experiments on benchmark datasets and a multi-source integration task, Impugan achieves up to 82\% lower Earth Mover's Distance (EMD) and 70\% lower mutual-information deviation (MI) compared to leading baselines. These results show that adversarially trained generative models provide a scalable and principled approach for imputing and merging incomplete, heterogeneous data. Our model is available at: github.com/zalishmahmud/impuganBigData2025
- Abstract(参考訳): 不完全なデータは現実世界のアプリケーションでは一般的である。
センサは失敗し、レコードは一貫性がなく、異なるソースから収集されたデータセットは、スケール、サンプリングレート、品質が異なることが多い。
これらの違いは、データを組み合わせて信頼性のあるモデルを構築するのを難しくする、不足する値を生み出します。
回帰モデル、予想最大化、多重計算のような標準的な計算法は、線形性と独立性に関する強い仮定に依存している。
これらの仮定は、複雑なデータや不均一なデータにはほとんど当てはまらないため、偏りや過度に滑らかな推定につながる可能性がある。
そこで我々は,不均一なデータセットを統合するための条件付きジェネレーティブ・アドバイザリアル・ネットワーク(cGAN)であるImpuganを提案する。
モデルは完全なサンプルに基づいてトレーニングされ、観察された変数に依存する変数の欠如を学習する。
推論中、ジェネレータは、利用可能な特徴から欠落したエントリを再構成し、識別器は、インプットされたデータと真を区別してリアリズムを強制する。
この逆過程により、インプガンは従来の方法では表現できない非線形および多モードの関係を捉えることができる。
ベンチマークデータセットとマルチソース統合タスクの実験では、Impuganは、Earth Mover's Distance(EMD)が82.%、相互情報偏差(MI)が70.%低い。
これらの結果は,非完全で不均一なデータに対して,逆向きに訓練された生成モデルが,スケーラブルで原則化されたアプローチを提供することを示している。
私たちのモデルは、github.com/zalishmahmud/impuganBigData2025で利用可能です。
関連論文リスト
- Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Equivariance and Invariance Inductive Bias for Learning from
Insufficient Data [65.42329520528223]
不十分なデータがモデルを、通常テストとは異なる限られたトレーニング環境にバイアスしやすくする理由が示されています。
従来のIRMにおける環境アノテーションの欠如を効果的に解決するクラスワイド不変リスク最小化(IRM)を提案する。
論文 参考訳(メタデータ) (2022-07-25T15:26:19Z) - Sharing pattern submodels for prediction with missing values [12.981974894538668]
機械学習の多くのアプリケーションでは欠落値は避けられず、トレーニング中もテスト時にも課題が提示される。
パターンサブモデル(パターンサブモデル)と呼ばれる別の手法を提案する。これは、テスト時に欠落した値に対して、予測を堅牢にし、パターンサブモデルの予測力を維持または改善させる。
論文 参考訳(メタデータ) (2022-06-22T15:09:40Z) - Bayesian data combination model with Gaussian process latent variable
model for mixed observed variables under NMAR missingness [0.0]
興味のある変数を同時に観測する「(準)単一ソースデータセット」を得ることは困難である。
これらのデータセットは、変数が不足した単一ソースデータセットとして利用する必要がある。
本稿では,データセットが同種であると仮定しないデータ融合法を提案する。
論文 参考訳(メタデータ) (2021-09-01T16:09:55Z) - Copula Flows for Synthetic Data Generation [0.5801044612920815]
確率モデルを合成データ生成器として用いることを提案する。
密度推定の手法として,シミュレーションと実データの両方をベンチマークした。
論文 参考訳(メタデータ) (2021-01-03T10:06:23Z) - A Note on Data Biases in Generative Models [16.86600007830682]
生成モデルの性能に及ぼすデータセット品質の影響について検討する。
生成モデルによりデータセットの社会的バイアスがどのように再現されるかを示す。
本稿では,写真,油絵,アニメなどの多様なデータセット間の非ペア転送を通じて,クリエイティブな応用を提示する。
論文 参考訳(メタデータ) (2020-12-04T10:46:37Z) - Characterizing and Avoiding Problematic Global Optima of Variational
Autoencoders [28.36260646471421]
変分自動エンコーダ(VAEs)は、深部生成潜在変数モデルである。
最近の研究は、伝統的な訓練手法がデシダラタに反する解決策をもたらす傾向があることを示している。
どちらの問題も、VAEトレーニング目標のグローバルな最適度が望ましくない解決策とよく一致するという事実に起因していることを示す。
論文 参考訳(メタデータ) (2020-03-17T15:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。