論文の概要: Autoregressive Synthesis of Sparse and Semi-Structured Mixed-Type Data
- arxiv url: http://arxiv.org/abs/2603.01444v1
- Date: Mon, 02 Mar 2026 04:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.682388
- Title: Autoregressive Synthesis of Sparse and Semi-Structured Mixed-Type Data
- Title(参考訳): スパースおよび半構造化混合型データの自己回帰合成
- Authors: Thomas Rückstieß, Robin Vujanic,
- Abstract要約: 我々は、データレコードをキー、値、構造トークンのシーケンスにトークン化する自動回帰トランスフォーマーベースのアーキテクチャであるOrigamiを提案する。
この表現は、平らさや計算を伴わずに、空間性、混合型、階層構造を扱う。
- 参考スコア(独自算出の注目度): 2.191505742658975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthetic data generation is a critical capability for data sharing, privacy compliance, system benchmarking and test data provisioning. Existing methods assume dense, fixed-schema tabular data, yet this assumption is increasingly at odds with modern data systems - from document databases, REST APIs to data lakes - which store and exchange data in sparse, semi-structured formats like JSON. Applying existing tabular methods to such data requires flattening of nested data into wide, sparse tables which scales poorly. We present Origami, an autoregressive transformer-based architecture that tokenizes data records, including nested objects and variable length arrays, into sequences of key, value and structural tokens. This representation natively handles sparsity, mixed types and hierarchical structure without flattening or imputation. Origami outperforms baselines spanning GAN, VAE, diffusion and autoregressive architectures on fidelity, utility and detection metrics across nearly all settings, while maintaining high privacy scores. On semi-structured datasets with up to 38% sparsity, baseline synthesizers either fail to scale or degrade substantially, while Origami maintains high-fidelity synthesis that is harder to distinguish from real data. To the best of our knowledge, Origami is the first architecture capable of natively modeling and generating semi-structured data end-to-end.
- Abstract(参考訳): 合成データ生成は、データ共有、プライバシコンプライアンス、システムベンチマーク、テストデータプロビジョニングにおいて重要な機能である。
既存のメソッドは、密集した固定スキーマの表形式のデータを前提としていますが、この仮定は、ドキュメントデータベース、REST API、データレイクなど、JSONのような疎結合で半構造化されたフォーマットでデータを保存し、交換する現代のデータシステムと相反する傾向にあります。
このようなデータに既存の表形式のメソッドを適用するには、ネストしたデータを疎いテーブルに平らにする必要がある。
ネストオブジェクトや可変長配列を含むデータレコードをキー,値,構造トークンのシーケンスにトークン化する自動回帰トランスフォーマーベースのアーキテクチャであるOrigamiを提案する。
この表現は、空間性、混合型、階層構造をフラット化や計算なしでネイティブに扱う。
Origamiは、GAN、VAE、拡散および自己回帰アーキテクチャにまたがるベースラインを、ほぼすべての設定において、ほぼすべての信頼性、ユーティリティ、検出のメトリクスで上回り、高いプライバシスコアを維持している。
半構造化データセットでは最大38%の間隔で、ベースラインシンセサイザーはスケールや分解に失敗する一方、折り紙は実際のデータと区別しにくい高忠実性シンセサイザーを維持している。
私たちの知る限りでは、Origamiは、半構造化データエンドツーエンドをネイティブにモデリングし、生成できる最初のアーキテクチャです。
関連論文リスト
- Generative Data Transformation: From Mixed to Unified Data [57.84692191369066]
textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
論文 参考訳(メタデータ) (2026-02-26T08:30:09Z) - StructSynth: Leveraging LLMs for Structure-Aware Tabular Data Synthesis in Low-Data Regimes [15.476662936746989]
構造化シンス(Struct Synth)は、大規模言語モデルの生成能力と堅牢な構造制御を統合する新しいフレームワークである。
最先端の手法よりもはるかに高い構造整合性と下流の実用性を持つ合成データを生成する。
これは低データのシナリオに挑戦する上で特に有効であることが証明され、プライバシー保護と統計的忠実性の間のトレードオフをナビゲートすることに成功した。
論文 参考訳(メタデータ) (2025-08-04T16:55:02Z) - RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。
RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-31T21:01:02Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - ORIGAMI: A generative transformer architecture for predictions from semi-structured data [3.5639148953570836]
ORIGAMIは、ネストされたキー/バリューペアを処理するトランスフォーマーベースのアーキテクチャである。
分類を次点予測として再構成することで、ORIGAMIはシングルラベルとマルチラベルの両方のタスクを自然に処理する。
論文 参考訳(メタデータ) (2024-12-23T07:21:17Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Causality for Tabular Data Synthesis: A High-Order Structure Causal Benchmark Framework [18.11940247961923]
本稿では,自然の先行知識として高次構造因果情報を導入する。
合成データの質を評価するために,複数のベンチマークタスク,高次メトリクス,因果推論タスクを下流タスクとして提案する。
論文 参考訳(メタデータ) (2024-06-12T15:12:49Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - HiStruct+: Improving Extractive Text Summarization with Hierarchical
Structure Information [0.6443952406204634]
本稿では,階層構造情報を抽出要約モデルに明示的に記述,抽出,エンコード,注入する新しい手法を提案する。
3つのデータセット(CNN/DailyMail、PubMed、arXivなど)のさまざまな実験的な設定を使用して、HiStruct+モデルは、一括して強力なベースラインをパフォーマンスします。
論文 参考訳(メタデータ) (2022-03-17T21:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。