Fugu-MT 論文翻訳(概要): CoDi: Co-evolving Contrastive Diffusion Models for Mixed-type Tabular Synthesis

論文の概要: CoDi: Co-evolving Contrastive Diffusion Models for Mixed-type Tabular Synthesis

arxiv url: http://arxiv.org/abs/2304.12654v1
Date: Tue, 25 Apr 2023 08:38:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-26 21:20:07.458162
Title: CoDi: Co-evolving Contrastive Diffusion Models for Mixed-type Tabular Synthesis
Title（参考訳）: CoDi:混合型語彙合成のためのコントラスト拡散モデル
Authors: Chaejeong Lee, Jayoung Kim, Noseong Park
Abstract要約: 2つの拡散モデルにより連続変数と離散変数を別々に(しかし互いに条件付けされている)処理することを提案する。 2つの拡散モデルは、互いに読み合うことによって、訓練中に共進化する。実世界の11のデータセットと8のベースライン手法を用いて実験を行い,提案手法の有効性を実証した。
参考スコア（独自算出の注目度）: 10.292096717484698
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With growing attention to tabular data these days, the attempt to apply a synthetic table to various tasks has been expanded toward various scenarios. Owing to the recent advances in generative modeling, fake data generated by tabular data synthesis models become sophisticated and realistic. However, there still exists a difficulty in modeling discrete variables (columns) of tabular data. In this work, we propose to process continuous and discrete variables separately (but being conditioned on each other) by two diffusion models. The two diffusion models are co-evolved during training by reading conditions from each other. In order to further bind the diffusion models, moreover, we introduce a contrastive learning method with a negative sampling method. In our experiments with 11 real-world tabular datasets and 8 baseline methods, we prove the efficacy of the proposed method, called CoDi.
Abstract（参考訳）: 近年、表データへの注目が高まり、様々なタスクに合成テーブルを適用する試みが様々なシナリオに向けて拡大されている。最近の生成モデリングの進歩により、表データ合成モデルによって生成された偽データは洗練され現実的になる。しかし、表データの離散変数(コラム)のモデル化は依然として困難である。本研究では,2つの拡散モデルを用いて連続変数と離散変数を別々に処理することを提案する。 2つの拡散モデルは、互いに読み合うことによって訓練中に共存する。さらに,拡散モデルをさらにバインドするために,負のサンプリング法を用いたコントラスト学習手法を導入する。実世界の11の表型データセットと8つのベースラインメソッドを用いた実験で,提案手法であるcodiの有効性を実証した。

関連論文リスト

Resolving Memorization in Empirical Diffusion Model for Manifold Data in High-Dimensional Spaces [5.716752583983991]
データ分布がn個の点からなる場合、経験的拡散モデルは既存のデータ点を再現する傾向がある。本研究は,経験的拡散シミュレーションの最後に慣性更新を適用することで,記憶の問題を解くことができることを示す。このモデルから得られたサンプルの分布は、次元$d$の$C2$多様体上の真のデータ分布を、位数$O(n-frac2d+4)$のWasserstein-1距離内で近似することを示した。
論文参考訳（メタデータ） (2025-05-05T09:40:41Z)
CtrTab: Tabular Data Synthesis with High-Dimensional and Limited Data [16.166752861658953]
データ次元が大きくなると、既存のモデルは縮退する傾向があり、単純な非拡散モデルよりもさらに悪いパフォーマンスを示す可能性がある。これは、高次元空間における限られたトレーニングサンプルが、しばしば生成モデルが分布を正確に捉えることを妨げているためである。我々は,高次元,低データシナリオにおける拡散型生成モデルの性能向上のために,CtrTabを提案する。
論文参考訳（メタデータ） (2025-03-09T05:01:56Z)
Continuous Diffusion Model for Language Modeling [57.396578974401734]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文参考訳（メタデータ） (2025-02-17T08:54:29Z)
Understanding and Mitigating Memorization in Diffusion Models for Tabular Data [16.02060275534452]
メモリ化は、モデルが正確にまたはほぼ同一のトレーニングデータを不注意に複製した場合に発生する。本稿では,TabCutMixを提案する。また,TabCutMixは,高品質なデータ生成を維持しつつ,メモリ化を効果的に軽減することを示す。
論文参考訳（メタデータ） (2024-12-15T04:04:37Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
Discrete Copula Diffusion [44.96934660818884]
離散拡散モデルがより少ないステップで強い性能を達成するのを防ぐ基本的な制限を同定する。我々は,コプラモデルと呼ばれる別の深層生成モデルを導入することで,欠落した依存情報を補うための一般的なアプローチを提案する。本手法は拡散モデルとコプラモデルの両方を微調整する必要はないが, 高い品質のサンプル生成が可能であり, 分解ステップが著しく少ない。
論文参考訳（メタデータ） (2024-10-02T18:51:38Z)
Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文参考訳（メタデータ） (2024-08-27T14:25:42Z)
Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文参考訳（メタデータ） (2024-06-23T20:34:18Z)
Balanced Mixed-Type Tabular Data Synthesis with Diffusion Models [14.651592234678722]
現在の拡散モデルでは、トレーニングデータセットのバイアスを継承し、バイアス付き合成データを生成する傾向がある。対象ラベルと感度属性のバランスの取れた結合分布を持つ公正な合成データを生成するために、センシティブガイダンスを組み込んだ新しいモデルを提案する。本手法は, 得られたサンプルの品質を維持しつつ, トレーニングデータのバイアスを効果的に軽減する。
論文参考訳（メタデータ） (2024-04-12T06:08:43Z)
Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文参考訳（メタデータ） (2024-02-16T16:47:21Z)
Lecture Notes in Probabilistic Diffusion Models [0.5361320134021585]
拡散モデルは非平衡熱力学に基づいてゆるやかにモデル化される。拡散モデルは、元のデータサンプルが属するデータ多様体を学習する。拡散モデルは、変分オートエンコーダやフローモデルとは異なり、元のデータと同じ次元の潜伏変数を持つ。
論文参考訳（メタデータ） (2023-12-16T09:36:54Z)
MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文参考訳（メタデータ） (2023-07-02T03:49:47Z)
Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文参考訳（メタデータ） (2022-12-01T18:59:55Z)
OCD: Learning to Overfit with Conditional Diffusion Models [95.1828574518325]
入力サンプルxに重みを条件付けした動的モデルを提案する。基本モデルを x とそのラベル y 上で微調整することで得られる重みに一致することを学習する。
論文参考訳（メタデータ） (2022-10-02T09:42:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。