論文の概要: Doubling Your Data in Minutes: Ultra-fast Tabular Data Generation via LLM-Induced Dependency Graphs
- arxiv url: http://arxiv.org/abs/2507.19334v1
- Date: Fri, 25 Jul 2025 14:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.000053
- Title: Doubling Your Data in Minutes: Ultra-fast Tabular Data Generation via LLM-Induced Dependency Graphs
- Title(参考訳): データを数分で倍にする: LLMによる依存性グラフによる超高速タブラルデータ生成
- Authors: Shuo Yang, Zheyu Zhang, Bardh Prenkaj, Gjergji Kasneci,
- Abstract要約: タブラルデータはさまざまなドメインで重要であるが、プライバシの懸念と収集コストのため、高品質なデータセットは依然として不足している。
本稿では,SPADA for SPArse Dependency-driven Augmentationを提案する。
4つのデータセットの実験により、SPADAは拡散ベースの手法と比較して制約違反を4%削減し、LCMベースのベースラインよりも約9500倍高速に生成することが示された。
- 参考スコア(独自算出の注目度): 15.476573983202162
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tabular data is critical across diverse domains, yet high-quality datasets remain scarce due to privacy concerns and the cost of collection. Contemporary approaches adopt large language models (LLMs) for tabular augmentation, but exhibit two major limitations: (1) dense dependency modeling among tabular features that can introduce bias, and (2) high computational overhead in sampling. To address these issues, we propose SPADA for SPArse Dependency-driven Augmentation, a lightweight generative framework that explicitly captures sparse dependencies via an LLM-induced graph. We treat each feature as a node and synthesize values by traversing the graph, conditioning each feature solely on its parent nodes. We explore two synthesis strategies: a non-parametric method using Gaussian kernel density estimation, and a conditional normalizing flow model that learns invertible mappings for conditional density estimation. Experiments on four datasets show that SPADA reduces constraint violations by 4% compared to diffusion-based methods and accelerates generation by nearly 9,500 times over LLM-based baselines.
- Abstract(参考訳): タブラルデータはさまざまなドメインで重要であるが、プライバシの懸念と収集コストのため、高品質なデータセットは依然として不足している。
現代のアプローチでは,表層拡張のための大規模言語モデル (LLM) が採用されているが,(1) 偏りを生じさせる表層特徴間の依存性の密度モデリング,(2) サンプリングにおける高い計算オーバーヘッドの2つの大きな制限がある。
これらの問題に対処するために,SPADA for SPArse Dependency-driven Augmentationを提案する。
それぞれの機能をノードとして扱い、グラフをトラバースして値を合成し、各機能を親ノードのみに条件付ける。
本稿では,ガウス核密度推定を用いた非パラメトリック法と,条件密度推定のための可逆写像を学習する条件正規化フローモデルについて検討する。
4つのデータセットの実験により、SPADAは拡散ベースの手法と比較して制約違反を4%削減し、LCMベースのベースラインよりも約9500倍高速に生成することが示された。
関連論文リスト
- Not All Features Deserve Attention: Graph-Guided Dependency Learning for Tabular Data Generation with Language Models [15.476573983202162]
本研究では,疎依存性グラフを大規模言語モデルの注意機構に統合する新しい手法であるGraDe(Graph-Guided Dependency Learning)を提案する。
GraDeは、外部から抽出された関数依存によってガイドされる軽量な動的グラフ学習モジュールを採用し、重要機能間の相互作用を優先し、無関係なものを抑制する。
さまざまな実世界のデータセットに対する我々の実験は、GraDeが既存のLCMベースのアプローチを12%も上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-24T15:22:27Z) - A theoretical framework for self-supervised contrastive learning for continuous dependent data [86.50780641055258]
自己教師付き学習(SSL)は、特にコンピュータビジョンの分野で、表現を学習するための強力なアプローチとして登場した。
本稿では,サンプル間のアンフェマティック独立に適した対照的なSSLの理論的枠組みを提案する。
具体的には、標準のUEAベンチマークとUCRベンチマークでTS2Vecを上回り、それぞれ4.17$%と2.08$%の精度で改善した。
論文 参考訳(メタデータ) (2025-06-11T14:23:47Z) - Deep Learning in Renewable Energy Forecasting: A Cross-Dataset Evaluation of Temporal and Spatial Models [7.286091036139208]
本研究は, 早期停止, ニューロン減少, L2正則化などの正規化アプローチを展開し, DLモデルに係わる過度適合問題を軽減した。
LSTMとモデルは優れた性能を示し、検証データは極端に低いルート平均二乗誤差値を示す。
論文 参考訳(メタデータ) (2025-05-06T02:05:19Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Variational Estimators of the Degree-corrected Latent Block Model for Bipartite Networks [1.0923877073891446]
列および列クラスタの様々な度合いを考慮に入れた次数補正潜在ブロックモデル(DC-LBM)を提案する。
我々は,Mステップにおけるパラメータ推定のための閉形式解を作成することにより,効率的な変動予測-最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-16T22:04:53Z) - Learning Mixtures of Linear Dynamical Systems [94.49754087817931]
そこで我々は,2段階のメタアルゴリズムを開発し,各基底構造LPSモデルを誤り$tildeO(sqrtd/T)$.sqrtd/T)まで効率的に復元する。
提案手法の有効性を検証し,数値実験による理論的研究を検証する。
論文 参考訳(メタデータ) (2022-01-26T22:26:01Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - Unsupervised Discretization by Two-dimensional MDL-based Histogram [0.0]
教師なしの離散化は多くの知識発見タスクにおいて重要なステップである。
本稿では,2次元データのより柔軟な分割を可能にする表現型モデルクラスを提案する。
本稿では,各次元を交互に分割し,隣接する領域をマージするPALMというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-02T19:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。