Fugu-MT 論文翻訳(概要): Diffusion models for missing value imputation in tabular data

論文の概要: Diffusion models for missing value imputation in tabular data

arxiv url: http://arxiv.org/abs/2210.17128v1
Date: Mon, 31 Oct 2022 08:13:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-01 15:49:53.542761
Title: Diffusion models for missing value imputation in tabular data
Title（参考訳）: 表データにおける値の欠落に関する拡散モデル
Authors: Shuhan Zheng, Nontawat Charoenphakdee
Abstract要約: 機械学習における値計算の欠落は、利用可能な情報を用いてデータセットの欠落値を正確に推定するタスクである。本稿では,タブラルデータに対する連続スコアベース拡散モデル (CSDI_T) と呼ばれる拡散モデル手法を提案する。分類変数と数値変数を同時に処理するために, ワンホット符号化, アナログビット符号化, 特徴トークン化という3つの手法を検討した。
参考スコア（独自算出の注目度）: 10.599563005836066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Missing value imputation in machine learning is the task of estimating the missing values in the dataset accurately using available information. In this task, several deep generative modeling methods have been proposed and demonstrated their usefulness, e.g., generative adversarial imputation networks. Recently, diffusion models have gained popularity because of their effectiveness in the generative modeling task in images, texts, audio, etc. To our knowledge, less attention has been paid to the investigation of the effectiveness of diffusion models for missing value imputation in tabular data. Based on recent development of diffusion models for time-series data imputation, we propose a diffusion model approach called "Conditional Score-based Diffusion Models for Tabular data" (CSDI_T). To effectively handle categorical variables and numerical variables simultaneously, we investigate three techniques: one-hot encoding, analog bits encoding, and feature tokenization. Experimental results on benchmark datasets demonstrated the effectiveness of CSDI_T compared with well-known existing methods, and also emphasized the importance of the categorical embedding techniques.
Abstract（参考訳）: 機械学習における値計算の欠落は、利用可能な情報を用いてデータセットの欠落値を正確に推定するタスクである。この課題では、いくつかの深層生成モデリング手法が提案され、その有用性を実証している。近年,画像やテキスト,音声などにおける生成的モデリングタスクの有効性から,拡散モデルの人気が高まっている。表データにおける値インプテーションの欠落に対する拡散モデルの有効性について,我々の知る限り,あまり注目されていない。近年の時系列データインプテーションのための拡散モデルの開発に基づいて,「表データのための条件スコアに基づく拡散モデル」(csdi_t) と呼ばれる拡散モデル手法を提案する。分類変数と数値変数を同時に扱うために, 1ホットエンコーディング, アナログビットエンコーディング, 特徴トークン化という3つの手法を検討した。ベンチマーク実験の結果,CSDI_Tの有効性は既知の手法と比較して実証され,分類的埋め込み技術の重要性も強調された。

関連論文リスト

Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Diffusion Beats Autoregressive in Data-Constrained Settings [50.56893491038853]
自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。本研究では,限られたデータ上で繰り返し学習を行うデータ制約付き環境で,マスク拡散モデルについて系統的に研究する。我々の結果は、データが計算ではなくボトルネックである場合、拡散モデルは標準的なARパラダイムに代わる魅力的な代替手段となることを示唆している。
論文参考訳（メタデータ） (2025-07-21T17:59:57Z)
Diffusion models under low-noise regime [3.729242965449096]
拡散モデルは, 汚損レベルが小さい場合に有効であることを示す。トレーニングセットのサイズ,データ幾何,および客観選択形状のモデル化方法の定量化を行う。この研究は、実用的なアプリケーションにおける生成モデルの信頼性に対する理解のギャップに対処し始めます。
論文参考訳（メタデータ） (2025-06-09T15:07:16Z)
Active Learning of Model Discrepancy with Bayesian Experimental Design [0.0]
逐次実験設計(BED)から得られたデータに基づいてモデル差分を効率的に学習する手法を提案する。提案手法は, 逐次BEDによって提案されるデータを用いて, 高次元モデル差分率の能動的学習に対して, 効率的かつ堅牢であることを示す。また,提案手法は古典的数値解法と近代自己微分可能解法の両方と互換性があることを実証した。
論文参考訳（メタデータ） (2025-02-07T22:54:20Z)
Diffusion Attribution Score: Evaluating Training Data Influence in Diffusion Model [22.39558434131574]
拡散モデルに対する既存のデータ帰属法は、典型的にはトレーニングサンプルの寄与を定量化する。拡散損失の直接的利用は,拡散損失の計算により,そのような貢献を正確に表すことはできない。本研究の目的は, 予測分布と属性スコアとの直接比較を計測し, トレーニングサンプルの重要性を分析することである。
論文参考訳（メタデータ） (2024-10-24T10:58:17Z)
Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文参考訳（メタデータ） (2024-10-17T17:59:02Z)
Self-Supervision Improves Diffusion Models for Tabular Data Imputation [20.871219616589986]
本稿では,自己教師型計算拡散モデル (SimpDM for brevity) という高度な拡散モデルを提案する。ノイズに対する感度を緩和するために、モデルを規則化し、一貫した安定な計算予測を保証する自己教師付きアライメント機構を導入する。我々はまた、SimpDM内で慎重に設計された状態依存データ拡張戦略を導入し、限られたデータを扱う際の拡散モデルの堅牢性を高める。
論文参考訳（メタデータ） (2024-07-25T13:06:30Z)
DiffPuter: Empowering Diffusion Models for Missing Data Imputation [56.48119008663155]
本稿ではDiffPuterについて紹介する。DiffPuterは、データ計算の欠如に対する期待最大化(EM)アルゴリズムと組み合わせた、カスタマイズされた拡散モデルである。我々の理論的解析は、DiffPuterのトレーニングステップがデータ密度の最大推定値に対応することを示している。 DiffPuterは,最も競争力のある既存手法と比較して,MAEが6.94%,RMSEが4.78%向上した。
論文参考訳（メタデータ） (2024-05-31T08:35:56Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文参考訳（メタデータ） (2024-01-17T07:58:18Z)
Diffusion-Model-Assisted Supervised Learning of Generative Models for Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。スコアベース拡散モデルを用いてラベル付きデータを生成する。ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文参考訳（メタデータ） (2023-10-22T23:56:19Z)
Deep Networks as Denoising Algorithms: Sample-Efficient Learning of Diffusion Models in High-Dimensional Graphical Models [22.353510613540564]
生成モデルにおけるディープニューラルネットワークによるスコア関数の近似効率について検討する。楽譜関数はしばしば変分推論法を用いてグラフィカルモデルでよく近似される。深層ニューラルネットワークによってスコア関数が学習されるとき,拡散に基づく生成モデルに縛られた効率的なサンプル複雑性を提供する。
論文参考訳（メタデータ） (2023-09-20T15:51:10Z)
MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文参考訳（メタデータ） (2023-07-02T03:49:47Z)
Score Approximation, Estimation and Distribution Recovery of Diffusion Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文参考訳（メタデータ） (2023-02-14T17:02:35Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)
CSDI: Conditional Score-based Diffusion Models for Probabilistic Time Series Imputation [107.63407690972139]
Conditional Score-based Diffusion Model for Imputation (CSDI) は、観測データに条件付きスコアベース拡散モデルを利用する新しい時系列計算法である。 CSDIは、一般的なパフォーマンスメトリクスの既存の確率論的計算方法よりも40-70%改善されている。さらに、Cは最先端の決定論的計算法と比較して誤差を5-20%削減する。
論文参考訳（メタデータ） (2021-07-07T22:20:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。