論文の概要: Generative Modeling of Complex Data
- arxiv url: http://arxiv.org/abs/2202.02145v1
- Date: Fri, 4 Feb 2022 14:17:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 14:07:24.036493
- Title: Generative Modeling of Complex Data
- Title(参考訳): 複雑なデータの生成モデリング
- Authors: Luca Canale, Nicolas Grislain, Gr\'egoire Lothe and Johan Leduc
- Abstract要約: 本稿では,より複雑なデータ構造を複合型とネスト型で合成する汎用フレームワークを提案する。
標準ベンチマークデータセットの結果は、このような実装が現在の最先端モデルよりも一貫して優れていることを示している。
- 参考スコア(独自算出の注目度): 8.201100713224003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, several models have improved the capacity to generate
synthetic tabular datasets. However, such models focus on synthesizing simple
columnar tables and are not useable on real-life data with complex structures.
This paper puts forward a generic framework to synthesize more complex data
structures with composite and nested types. It then proposes one practical
implementation, built with causal transformers, for struct (mappings of types)
and lists (repeated instances of a type). The results on standard benchmark
datasets show that such implementation consistently outperforms current
state-of-the-art models both in terms of machine learning utility and
statistical similarity. Moreover, it shows very strong results on two complex
hierarchical datasets with multiple nesting and sparse data, that were
previously out of reach.
- Abstract(参考訳): 近年、いくつかのモデルで合成表データセットを生成する能力が改善されている。
しかし、そのようなモデルは単純な列状テーブルの合成にフォーカスしており、複雑な構造を持つ現実のデータでは使用できない。
本稿では,より複雑なデータ構造を複合型とネスト型で合成する汎用フレームワークを提案する。
次に、構造体(型のマッピング)とリスト(型の繰り返しインスタンス)のための因果変換器で構築された実用的な実装を提案する。
標準ベンチマークデータセットの結果は、このような実装が機械学習ユーティリティと統計的類似性の両方において、現在の最先端モデルよりも一貫して優れていることを示している。
さらに、複数のネスティングとスパースデータを持つ2つの複雑な階層型データセットに対して、これまで手が届かなかった非常に強力な結果を示す。
関連論文リスト
- Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。
データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文 参考訳(メタデータ) (2023-11-08T01:27:34Z) - AutoDiff: combining Auto-encoder and Diffusion model for tabular data
synthesizing [12.06889830487286]
拡散モデルは、現代の機械学習において、合成データ生成の主要なパラダイムとなっている。
本稿では,合成表データを生成するために拡散モデルのパワーを利用する。
生成した合成表は、実データに対する優れた統計的忠実度を示し、機械学習ユーティリティの下流タスクでよく機能する。
論文 参考訳(メタデータ) (2023-10-24T03:15:19Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文 参考訳(メタデータ) (2023-02-04T00:32:50Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Sequential Models in the Synthetic Data Vault [8.35780131268962]
本研究の目的は,Synthetic Data vault内に合成シーケンシャルデータを生成するシステムを記述することである。
本稿では,マルチシーケンス,実世界のデータ生成モデルを構築するエンドツーエンドフレームワークであるSDVのSequentialモデルについて述べる。
論文 参考訳(メタデータ) (2022-07-28T23:17:51Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Tabular Transformers for Modeling Multivariate Time Series [30.717890753132824]
タブラルデータセットは、データサイエンスの応用においてユビキタスである。その重要性から、最先端のディープラーニングアルゴリズムを適用して、その可能性を完全に解き放つことは自然なようだ。
本稿では,その階層構造を活用可能なグラフ時系列を表すニューラルネットワークモデルを提案する。
学習した表現を不正検出と合成データ生成に使用する合成クレジットカードトランザクションデータセットと、学習したエンコーディングを大気汚染物質濃度を予測するための実際の公害データセットの2つのデータセットで実証する。
論文 参考訳(メタデータ) (2020-11-03T16:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。