論文の概要: ClavaDDPM: Multi-relational Data Synthesis with Cluster-guided Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.17724v2
- Date: Thu, 14 Nov 2024 11:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:21.714018
- Title: ClavaDDPM: Multi-relational Data Synthesis with Cluster-guided Diffusion Models
- Title(参考訳): ClavaDDPM:クラスタ誘導拡散モデルを用いたマルチリレーショナルデータ合成
- Authors: Wei Pang, Masoumeh Shafieinejad, Lucy Liu, Stephanie Hazlewood, Xi He,
- Abstract要約: マルチリレーショナル(マルチテーブル)データを合成するための新しいアプローチであるClavaDDPMを紹介する。
ClavaDDPMはクラスタリングラベルを仲介として、特に外部キー制約に焦点を当てたテーブル間の関係をモデル化する。
ClavaDDPMは、これらの長距離依存に対する既存のメソッドよりも優れており、シングルテーブルデータに対するユーティリティメトリクスに競争力があることを示す。
- 参考スコア(独自算出の注目度): 4.725559485781692
- License:
- Abstract: Recent research in tabular data synthesis has focused on single tables, whereas real-world applications often involve complex data with tens or hundreds of interconnected tables. Previous approaches to synthesizing multi-relational (multi-table) data fall short in two key aspects: scalability for larger datasets and capturing long-range dependencies, such as correlations between attributes spread across different tables. Inspired by the success of diffusion models in tabular data modeling, we introduce $\textbf{C}luster$ $\textbf{La}tent$ $\textbf{Va}riable$ $guided$ $\textbf{D}enoising$ $\textbf{D}iffusion$ $\textbf{P}robabilistic$ $\textbf{M}odels$ (ClavaDDPM). This novel approach leverages clustering labels as intermediaries to model relationships between tables, specifically focusing on foreign key constraints. ClavaDDPM leverages the robust generation capabilities of diffusion models while incorporating efficient algorithms to propagate the learned latent variables across tables. This enables ClavaDDPM to capture long-range dependencies effectively. Extensive evaluations on multi-table datasets of varying sizes show that ClavaDDPM significantly outperforms existing methods for these long-range dependencies while remaining competitive on utility metrics for single-table data.
- Abstract(参考訳): 表型データ合成の最近の研究は単一のテーブルに焦点を当てているが、現実のアプリケーションは数十から数百の相互接続テーブルを持つ複雑なデータを含むことが多い。
マルチリレーショナル(マルチテーブル)データを合成する以前のアプローチでは、より大きなデータセットのスケーラビリティと、異なるテーブルにまたがる属性間の相関など、長距離依存関係のキャプチャという、2つの重要な側面で不足していた。
グラフデータモデリングにおける拡散モデルの成功に触発されて、$\textbf{C}luster$ $\textbf{La}tent$ $\textbf{Va}riable$ $guided$ $\textbf{D}enoising$ $\textbf{D}iffusion$ $\textbf{P}robabilistic$ $\textbf{M}odels$ (ClavaDDPM)を導入する。
この新たなアプローチでは、クラスタリングラベルを中間体として活用して、特に外部キー制約に着目したテーブル間の関係をモデル化する。
ClavaDDPMは拡散モデルのロバストな生成能力を活用しながら、学習した潜伏変数をテーブル全体に伝播させる効率的なアルゴリズムを取り入れている。
これにより、ClavaDDPMは長距離依存関係を効果的にキャプチャできる。
さまざまなサイズのマルチテーブルデータセットに対する大規模な評価では、ClavaDDPMは、これらの長距離依存に対する既存のメソッドよりも大幅に優れており、シングルテーブルデータのユーティリティメトリクスに競争力がある。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - MAVEN-ERE: A Unified Large-scale Dataset for Event Coreference,
Temporal, Causal, and Subevent Relation Extraction [78.61546292830081]
アノテーションを改良した大規模EREデータセットMAVEN-EREを構築した。
103,193個のイベント・コア・チェイン、1,216,217個の時間関係、57,992個の因果関係、15,841個の部分関係を含む。
実験の結果,MAVEN-ERE上でのEREは極めて困難であり,共同学習との相互関係を考慮すれば性能が向上することが示された。
論文 参考訳(メタデータ) (2022-11-14T13:34:49Z) - TabDDPM: Modelling Tabular Data with Diffusion Models [33.202222842342465]
TabDDPM -- どんなデータセットにも普遍的に適用でき、どんなタイプの機能でも扱える拡散モデルです。
我々は,TabDDPMを広範囲のベンチマークで評価し,既存のGAN/VAE代替よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T12:26:14Z) - Model Joins: Enabling Analytics Over Joins of Absent Big Tables [9.797488793708624]
この作業では、これらの課題に対処するフレームワーク、Model Joinが紹介されている。
フレームワークは、欠席したテーブルのテーブルごとのモデルを統合して結合する。
近似はモデルに由来するが、Model Joinフレームワークに由来するものではない。
論文 参考訳(メタデータ) (2022-06-21T14:28:24Z) - A Novel Global Feature-Oriented Relational Triple Extraction Model based
on Table Filling [1.6295073821494463]
本稿では,2種類のグローバルアソシエーションをフル活用したグローバルな特徴指向トリプル抽出モデルを提案する。
実験により,本モデルの有効性が示され,これらすべてのデータセットに対して最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-14T14:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。