論文の概要: LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion
- arxiv url: http://arxiv.org/abs/2503.02161v2
- Date: Thu, 07 Aug 2025 08:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 23:24:00.903406
- Title: LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion
- Title(参考訳): LLM-TabLogic: Prompt-Guided Latent Diffusionによる合成語彙データのカラム間論理関係の保存
- Authors: Yunbo Long, Liming Xu, Alexandra Brintrup,
- Abstract要約: 合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
- 参考スコア(独自算出の注目度): 49.898152180805454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic tabular data are increasingly being used to replace real data, serving as an effective solution that simultaneously protects privacy and addresses data scarcity. However, in addition to preserving global statistical properties, synthetic datasets must also maintain domain-specific logical consistency**-**especially in complex systems like supply chains, where fields such as shipment dates, locations, and product categories must remain logically consistent for real-world usability. Existing generative models often overlook these inter-column relationships, leading to unreliable synthetic tabular data in real-world applications. To address these challenges, we propose LLM-TabLogic, a novel approach that leverages Large Language Model reasoning to capture and compress the complex logical relationships among tabular columns, while these conditional constraints are passed into a Score-based Diffusion model for data generation in latent space. Through extensive experiments on real-world industrial datasets, we evaluate LLM-TabLogic for column reasoning and data generation, comparing it with five baselines including SMOTE and state-of-the-art generative models. Our results show that LLM-TabLogic demonstrates strong generalization in logical inference, achieving over 90% accuracy on unseen tables. Furthermore, our method outperforms all baselines in data generation by fully preserving inter-column relationships while maintaining the best balance between data fidelity, utility, and privacy. This study presents the first method to effectively preserve inter-column relationships in synthetic tabular data generation without requiring domain knowledge, offering new insights for creating logically consistent real-world tabular data.
- Abstract(参考訳): 合成表データは、実際のデータを置き換えるためにますます使われており、プライバシーとデータの不足を同時に保護する効果的なソリューションとして機能している。
しかし、グローバルな統計特性の保存に加えて、合成データセットは、特にサプライチェーンのような複雑なシステムでは、ドメイン固有の論理的一貫性**-*を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落とし、現実のアプリケーションで信頼性の低い合成表データを生み出す。
これらの課題に対処するために,LLM-TabLogicを提案する。LLM-TabLogicは大規模言語モデル推論を利用して,グラフ列間の複雑な論理的関係を捕捉・圧縮する手法であり,これらの条件付き制約は潜時空間におけるデータ生成のためのスコアベース拡散モデルに渡される。
実世界の産業データセットに関する広範な実験を通じて、列推論とデータ生成のためのLLM-TabLogicを評価し、SMOTEや最先端生成モデルを含む5つのベースラインと比較した。
その結果, LLM-TabLogic は論理的推論において強い一般化を示し, 未知のテーブル上で90%以上の精度を実現していることがわかった。
さらに,本手法は,コラム間の関係を完全に保ちながら,データ忠実性,ユーティリティ,プライバシのバランスを保ちながら,データ生成のすべてのベースラインを上回ります。
本研究では、論理的に一貫した実世界の表データを作成するための新たな洞察を提供するとともに、ドメイン知識を必要とせずに、合成表データ生成における列間関係を効果的に維持する手法を提案する。
関連論文リスト
- Generating Synthetic Relational Tabular Data via Structural Causal Models [0.0]
本研究では,テーブル間の因果関係を含むリアルな合成関係データを生成する新しいフレームワークを開発する。
実験により,本フレームワークは実世界のシナリオを模倣した複雑なテーブル間依存関係を持つ関係データセットを構築することができることを確認した。
論文 参考訳(メタデータ) (2025-07-04T12:27:23Z) - RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。
RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-31T21:01:02Z) - Large Language Models for Data Synthesis [17.333852085464176]
大規模言語モデル(LLM)は、現実の分布よりも柔軟で高次元の先行性を持つ。
LLM Synthorは、LLMを分布フィードバックによって誘導される構造対応シミュレータに変換するデータ合成のためのフレームワークである。
要約統計空間における相違を最小化することにより、反復合成ループは実データと合成データを整列させる。
論文 参考訳(メタデータ) (2025-05-20T13:35:38Z) - GReaTER: Generate Realistic Tabular data after data Enhancement and Reduction [9.784347635082232]
本稿では,現実的なタブラリデータを生成するためのGReaTERを提案する。
GReaTERは、データセマンティックエンハンスメントシステムとクロステーブル接続方法を含む。
GReaTERはGReaTフレームワークより優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-03-19T04:16:05Z) - Generative adversarial networks vs large language models: a comparative study on synthetic tabular data generation [0.7373617024876725]
本研究では,タスク固有の微調整や,事前学習のための実世界のデータへのアクセスを必要とせずに,高品質な表形式データを生成する能力を示す。
GPT-4oをベンチマークするために、LLM生成合成データの忠実度とプライバシを条件付き生成対向ネットワーク(CTGAN)で生成されたデータと比較した。
ゼロショットアプローチにもかかわらず、GPT-4oは保存手段においてCTGANよりも優れ、95%の信頼区間、二変量相関、RWDのデータプライバシが増幅されたサンプルサイズでも優れていた。
論文 参考訳(メタデータ) (2025-02-20T12:56:16Z) - Evaluating Inter-Column Logical Relationships in Synthetic Tabular Data Generation [49.898152180805454]
本稿では,論理的関係の保存性を評価するための3つの評価指標を提案する。
実世界の産業データセット上での古典的手法と最先端の手法の両方の性能を評価することにより,これらの指標を検証する。
論文 参考訳(メタデータ) (2025-02-06T13:13:26Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Synthesizing Text-to-SQL Data from Weak and Strong LLMs [68.69270834311259]
オープンソースとクローズドソースの大規模言語モデル(LLM)の能力ギャップは、テキスト・トゥ・タスクにおいて依然として課題である。
より大規模で強力なモデルによって生成されたデータと、より小さく、不整合なモデルによって生成されたエラー情報データを組み合わせた合成データアプローチを導入する。
論文 参考訳(メタデータ) (2024-08-06T15:40:32Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - IRG: Generating Synthetic Relational Databases using Deep Learning with Insightful Relational Understanding [13.724085637262654]
本稿では,ユビキタスな実環境をうまく処理できるインクリメンタルジェネレータ(IRG)を提案する。
IRGは関係スキーマの整合性の維持を保証し、直接の祖先や子孫を超えた関係の深い理解を提供する。
異なるスケールの異なる分野における3つのオープンソースの実生活関係データセットの実験は、IRGが合成データのリレーショナルスキーマの妥当性とデータの忠実さと有用性を維持できるという利点を示している。
論文 参考訳(メタデータ) (2023-12-23T07:47:58Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。