論文の概要: StructSynth: Leveraging LLMs for Structure-Aware Tabular Data Synthesis in Low-Data Regimes
- arxiv url: http://arxiv.org/abs/2508.02601v1
- Date: Mon, 04 Aug 2025 16:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.441483
- Title: StructSynth: Leveraging LLMs for Structure-Aware Tabular Data Synthesis in Low-Data Regimes
- Title(参考訳): 構造合成:低データレジームにおける構造を考慮した語彙データ合成のためのLLMの活用
- Authors: Siyi Liu, Yujia Zheng, Yongqi Zhang,
- Abstract要約: 構造化シンス(Struct Synth)は、大規模言語モデルの生成能力と堅牢な構造制御を統合する新しいフレームワークである。
最先端の手法よりもはるかに高い構造整合性と下流の実用性を持つ合成データを生成する。
これは低データのシナリオに挑戦する上で特に有効であることが証明され、プライバシー保護と統計的忠実性の間のトレードオフをナビゲートすることに成功した。
- 参考スコア(独自算出の注目度): 15.476662936746989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of machine learning on tabular data in specialized domains is severely limited by data scarcity. While generative models offer a solution, traditional methods falter in low-data regimes, and recent Large Language Models (LLMs) often ignore the explicit dependency structure of tabular data, leading to low-fidelity synthetics. To address these limitations, we introduce StructSynth, a novel framework that integrates the generative power of LLMs with robust structural control. StructSynth employs a two-stage architecture. First, it performs explicit structure discovery to learn a Directed Acyclic Graph (DAG) from the available data. Second, this learned structure serves as a high-fidelity blueprint to steer the LLM's generation process, forcing it to adhere to the learned feature dependencies and thereby ensuring the generated data respects the underlying structure by design. Our extensive experiments demonstrate that StructSynth produces synthetic data with significantly higher structural integrity and downstream utility than state-of-the-art methods. It proves especially effective in challenging low-data scenarios, successfully navigating the trade-off between privacy preservation and statistical fidelity.
- Abstract(参考訳): 特殊なドメインにおける表データへの機械学習の適用は、データの不足によって著しく制限されている。
生成モデルがソリューションを提供する一方で、従来の手法は低データのレシエーションに影響を及ぼし、最近のLarge Language Models (LLMs) は表データの明示的な依存構造を無視し、低忠実性合成に繋がることが多い。
これらの制約に対処するために,LLMの生成能力と頑健な構造制御を統合する新しいフレームワークであるStructSynthを紹介した。
StructSynthは2段階アーキテクチャを採用している。
まず、利用可能なデータからDAG(Directed Acyclic Graph)を学ぶために、明示的な構造探索を実行する。
第二に、この学習された構造は、LLMの生成プロセスを操るために高忠実な青写真として機能し、学習した特徴依存に従わざるを得ず、それによって生成されたデータが設計によって基盤構造を尊重することを保証する。
我々の広範な実験により、StructSynthは、最先端の手法よりもはるかに高い構造整合性と下流の有用性を持つ合成データを生成することが示された。
これは低データのシナリオに挑戦する上で特に有効であることが証明され、プライバシー保護と統計的忠実性の間のトレードオフをナビゲートすることに成功した。
関連論文リスト
- Dependency-aware synthetic tabular data generation [0.0]
特に、機能的依存関係(FD)と論理的依存関係(LD)は、しばしば合成データセットにほとんど、あるいはあまり保持されない。
本稿では,FD と LD ルールに基づいて独立な特徴を生成し,依存する特徴を再構成する階層的特徴生成フレームワーク (HFGF) を提案する。
4つのベンチマークデータセットを用いた実験により,HFGFはFDとLDの保存を6つの生成モデルで改善することが示された。
論文 参考訳(メタデータ) (2025-07-25T12:29:58Z) - Generating Synthetic Relational Tabular Data via Structural Causal Models [0.0]
本研究では,テーブル間の因果関係を含むリアルな合成関係データを生成する新しいフレームワークを開発する。
実験により,本フレームワークは実世界のシナリオを模倣した複雑なテーブル間依存関係を持つ関係データセットを構築することができることを確認した。
論文 参考訳(メタデータ) (2025-07-04T12:27:23Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。
RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-31T21:01:02Z) - Large Language Models for Data Synthesis [17.333852085464176]
大規模言語モデル(LLM)は、現実の分布よりも柔軟で高次元の先行性を持つ。
LLM Synthorは、LLMを分布フィードバックによって誘導される構造対応シミュレータに変換するデータ合成のためのフレームワークである。
要約統計空間における相違を最小化することにより、反復合成ループは実データと合成データを整列させる。
論文 参考訳(メタデータ) (2025-05-20T13:35:38Z) - GReaTER: Generate Realistic Tabular data after data Enhancement and Reduction [9.784347635082232]
本稿では,現実的なタブラリデータを生成するためのGReaTERを提案する。
GReaTERは、データセマンティックエンハンスメントシステムとクロステーブル接続方法を含む。
GReaTERはGReaTフレームワークより優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-03-19T04:16:05Z) - Structural and Statistical Texture Knowledge Distillation and Learning for Segmentation [70.15341084443236]
セマンティックセグメンテーションと関連する知識蒸留タスクのためのディープネットワークにおける低レベルのテクスチャ情報を再強調する。
セグメンテーションのための構造的・統計的テクスチャ知識蒸留(SSTKD)フレームワークを提案する。
特に、低レベルの特徴を分解するためにContourlet Decomposition Module (CDM)が導入されている。
テクスチャ強度等化モジュール(TIEM)は、統計テクスチャ知識を抽出し、強化するために設計されている。
論文 参考訳(メタデータ) (2025-03-11T04:49:25Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - HyperG: Hypergraph-Enhanced LLMs for Structured Knowledge [25.279158571663036]
HyperGはハイパーグラフベースの生成フレームワークで、構造化知識を処理する大規模言語モデルの能力を高めることを目的としている。
具体的には、HyperGはまず、スパースデータを文脈情報で拡張し、データ内の拡張情報と複雑な構造的関係の両方をエンコードするために、プロンプト付きハイパーグラフ学習ネットワークを組み込む。
HyperGの有効性と一般化を検証するために、構造化知識を必要とする2つの下流タスクにまたがる広範な実験を行った。
論文 参考訳(メタデータ) (2025-02-25T11:47:32Z) - Learning to Model Graph Structural Information on MLPs via Graph Structure Self-Contrasting [50.181824673039436]
本稿では,グラフ構造情報をメッセージパッシングなしで学習するグラフ構造自己コントラスト(GSSC)フレームワークを提案する。
提案するフレームワークは,構造情報を事前知識として暗黙的にのみ組み込む,MLP(Multi-Layer Perceptrons)に基づいている。
これはまず、近傍の潜在的非形式的あるいはノイズの多いエッジを取り除くために構造的スペーシングを適用し、その後、スペーシングされた近傍で構造的自己コントラストを行い、ロバストなノード表現を学ぶ。
論文 参考訳(メタデータ) (2024-09-09T12:56:02Z) - StructLM: Towards Building Generalist Models for Structured Knowledge Grounding [49.10029030628653]
大規模言語モデル(LLM)では、最先端(SoTA)モデルの背後にある構造化データラグを平均35%処理できる。
私たちは、MistralとCodeLlamaモデルファミリに基づいたStructLMと呼ばれる一連のモデルをトレーニングします。
我々のStructLMシリーズは、評価された18のデータセットのうち16のタスク固有モデルを超え、8つのSKGタスクに新しいSoTAパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-02-26T15:47:01Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。