Fugu-MT 論文翻訳(概要): Generative Modeling of Complex Data

論文の概要: Generative Modeling of Complex Data

arxiv url: http://arxiv.org/abs/2202.02145v1
Date: Fri, 4 Feb 2022 14:17:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-07 14:07:24.036493
Title: Generative Modeling of Complex Data
Title（参考訳）: 複雑なデータの生成モデリング
Authors: Luca Canale, Nicolas Grislain, Gr\'egoire Lothe and Johan Leduc
Abstract要約: 本稿では,より複雑なデータ構造を複合型とネスト型で合成する汎用フレームワークを提案する。標準ベンチマークデータセットの結果は、このような実装が現在の最先端モデルよりも一貫して優れていることを示している。
参考スコア（独自算出の注目度）: 8.201100713224003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, several models have improved the capacity to generate synthetic tabular datasets. However, such models focus on synthesizing simple columnar tables and are not useable on real-life data with complex structures. This paper puts forward a generic framework to synthesize more complex data structures with composite and nested types. It then proposes one practical implementation, built with causal transformers, for struct (mappings of types) and lists (repeated instances of a type). The results on standard benchmark datasets show that such implementation consistently outperforms current state-of-the-art models both in terms of machine learning utility and statistical similarity. Moreover, it shows very strong results on two complex hierarchical datasets with multiple nesting and sparse data, that were previously out of reach.
Abstract（参考訳）: 近年、いくつかのモデルで合成表データセットを生成する能力が改善されている。しかし、そのようなモデルは単純な列状テーブルの合成にフォーカスしており、複雑な構造を持つ現実のデータでは使用できない。本稿では,より複雑なデータ構造を複合型とネスト型で合成する汎用フレームワークを提案する。次に、構造体(型のマッピング)とリスト(型の繰り返しインスタンス)のための因果変換器で構築された実用的な実装を提案する。標準ベンチマークデータセットの結果は、このような実装が機械学習ユーティリティと統計的類似性の両方において、現在の最先端モデルよりも一貫して優れていることを示している。さらに、複数のネスティングとスパースデータを持つ2つの複雑な階層型データセットに対して、これまで手が届かなかった非常に強力な結果を示す。

関連論文リスト

PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models [51.42043158297229]
マルチタブラルリレーショナルデータベースをスクラッチから合成するフレームワークであるPluelを紹介する。ステップバイステップの方法では,(1)有向グラフのスキーマ,(2)二部グラフのテーブル間一次外部キー接続,(3)条件因果機構によるテーブル内の特徴分布をモデル化する。
論文参考訳（メタデータ） (2026-02-03T21:35:18Z)
Generative Correlation Manifolds: Generating Synthetic Data with Preserved Higher-Order Correlations [4.551615447454767]
本稿では,合成データを生成する計算効率の良い手法である生成相関マニフォールド(GCM)を紹介する。本手法は,プライバシ保護データ共有,ロバストモデルトレーニング,シミュレーションに応用可能な,合成データ生成への新たなアプローチを提供するものである,と我々は主張する。
論文参考訳（メタデータ） (2025-10-24T16:15:53Z)
Generating Synthetic Relational Tabular Data via Structural Causal Models [0.0]
本研究では,テーブル間の因果関係を含むリアルな合成関係データを生成する新しいフレームワークを開発する。実験により,本フレームワークは実世界のシナリオを模倣した複雑なテーブル間依存関係を持つ関係データセットを構築することができることを確認した。
論文参考訳（メタデータ） (2025-07-04T12:27:23Z)
RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。 RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-05-31T21:01:02Z)
How compositional generalization and creativity improve as diffusion models are trained [82.08869888944324]
構成規則を学習するために生成モデルに必要なサンプルはいくつあるか? ルールを学習するために、データのどのシグナルが利用されるのか? ここで紹介する階層的クラスタリング機構と物理における再正規化群との関係について論じる。
論文参考訳（メタデータ） (2025-02-17T18:06:33Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models [10.88959673845634]
TabEBMはEnergy-Based Models (EBMs)を用いたクラス条件生成法である実験の結果,TabEBMは既存の手法よりも高品質で統計的忠実度の高い合成データを生成することがわかった。
論文参考訳（メタデータ） (2024-09-24T14:25:59Z)
UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文参考訳（メタデータ） (2024-06-07T14:39:28Z)
CTSyn: A Foundational Model for Cross Tabular Data Generation [9.568990880984813]
Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。 CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
論文参考訳（メタデータ） (2024-06-07T04:04:21Z)
ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文参考訳（メタデータ） (2024-05-22T15:23:10Z)
Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文参考訳（メタデータ） (2023-11-08T01:27:34Z)
AutoDiff: combining Auto-encoder and Diffusion model for tabular data synthesizing [12.06889830487286]
拡散モデルは、現代の機械学習において、合成データ生成の主要なパラダイムとなっている。本稿では,合成表データを生成するために拡散モデルのパワーを利用する。生成した合成表は、実データに対する優れた統計的忠実度を示し、機械学習ユーティリティの下流タスクでよく機能する。
論文参考訳（メタデータ） (2023-10-24T03:15:19Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文参考訳（メタデータ） (2023-02-04T00:32:50Z)
Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-17T02:53:21Z)
Tabular Transformers for Modeling Multivariate Time Series [30.717890753132824]
タブラルデータセットは、データサイエンスの応用においてユビキタスである。その重要性から、最先端のディープラーニングアルゴリズムを適用して、その可能性を完全に解き放つことは自然なようだ。本稿では,その階層構造を活用可能なグラフ時系列を表すニューラルネットワークモデルを提案する。学習した表現を不正検出と合成データ生成に使用する合成クレジットカードトランザクションデータセットと、学習したエンコーディングを大気汚染物質濃度を予測するための実際の公害データセットの2つのデータセットで実証する。
論文参考訳（メタデータ） (2020-11-03T16:58:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。