論文の概要: TabularARGN: A Flexible and Efficient Auto-Regressive Framework for Generating High-Fidelity Synthetic Data
- arxiv url: http://arxiv.org/abs/2501.12012v1
- Date: Tue, 21 Jan 2025 10:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:21:21.791866
- Title: TabularARGN: A Flexible and Efficient Auto-Regressive Framework for Generating High-Fidelity Synthetic Data
- Title(参考訳): TabularARGN: 高忠実性合成データを生成するための柔軟で効率的な自動回帰フレームワーク
- Authors: Paul Tiwald, Ivona Krchova, Andrey Sidorenko, Mariana Vargas-Vieyra, Mario Scriminaci, Michael Platzer,
- Abstract要約: Tabular Auto-Regressive Generative Network (TabularARGN)は、混合型、多変量、シーケンシャルデータセットを扱う柔軟なフレームワークである。
あらゆる可能な条件付き確率のトレーニングにより、TabularARGNは、カラムの任意のサブセット上で、公平性を認識した生成、計算、条件付き生成などの高度な特徴をサポートする。
- 参考スコア(独自算出の注目度): 0.42881773214459123
- License:
- Abstract: Synthetic data generation for tabular datasets must balance fidelity, efficiency, and versatility to meet the demands of real-world applications. We introduce the Tabular Auto-Regressive Generative Network (TabularARGN), a flexible framework designed to handle mixed-type, multivariate, and sequential datasets. By training on all possible conditional probabilities, TabularARGN supports advanced features such as fairness-aware generation, imputation, and conditional generation on any subset of columns. The framework achieves state-of-the-art synthetic data quality while significantly reducing training and inference times, making it ideal for large-scale datasets with diverse structures. Evaluated across established benchmarks, including realistic datasets with complex relationships, TabularARGN demonstrates its capability to synthesize high-quality data efficiently. By unifying flexibility and performance, this framework paves the way for practical synthetic data generation across industries.
- Abstract(参考訳): 表形式のデータセットのための合成データ生成は、実世界のアプリケーションの要求を満たすために、忠実さ、効率、汎用性のバランスをとる必要がある。
Tabular Auto-Regressive Generative Network (TabularARGN)は、混合型、多変量、シーケンシャルデータセットを扱うために設計されたフレキシブルなフレームワークである。
あらゆる可能な条件付き確率のトレーニングにより、TabularARGNは、カラムの任意のサブセット上で、公平性を認識した生成、計算、条件付き生成などの高度な特徴をサポートする。
このフレームワークは、最先端の合成データ品質を実現しつつ、トレーニングと推論時間を著しく削減し、多様な構造を持つ大規模データセットに最適である。
TabularARGNは、複雑な関係を持つ現実的なデータセットを含む、確立されたベンチマークで評価され、高品質なデータを効率的に合成する能力を示している。
柔軟性とパフォーマンスを統一することにより、このフレームワークは業界全体で実用的な合成データ生成の道を開く。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - Causality for Tabular Data Synthesis: A High-Order Structure Causal Benchmark Framework [18.11940247961923]
本稿では,自然の先行知識として高次構造因果情報を導入する。
合成データの質を評価するために,複数のベンチマークタスク,高次メトリクス,因果推論タスクを下流タスクとして提案する。
論文 参考訳(メタデータ) (2024-06-12T15:12:49Z) - CTSyn: A Foundational Model for Cross Tabular Data Generation [9.568990880984813]
Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。
CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。
また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
論文 参考訳(メタデータ) (2024-06-07T04:04:21Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - SynthEval: A Framework for Detailed Utility and Privacy Evaluation of Tabular Synthetic Data [3.360001542033098]
SynthEvalは、合成データのための新しいオープンソース評価フレームワークである。
特別な種類の前処理ステップを仮定することなく、分類的および数値的な属性を同等のケアで扱う。
我々のツールは統計的および機械学習技術を利用して、合成データの忠実度とプライバシー保護の整合性を包括的に評価する。
論文 参考訳(メタデータ) (2024-04-24T11:49:09Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。