論文の概要: Synthetic Data Blueprint (SDB): A modular framework for the statistical, structural, and graph-based evaluation of synthetic tabular data
- arxiv url: http://arxiv.org/abs/2512.19718v1
- Date: Tue, 16 Dec 2025 10:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.589134
- Title: Synthetic Data Blueprint (SDB): A modular framework for the statistical, structural, and graph-based evaluation of synthetic tabular data
- Title(参考訳): 合成データ青写真(SDB):合成表データの統計的・構造的・グラフ的評価のためのモジュラーフレームワーク
- Authors: Vasileios C. Pezoulas, Nikolaos S. Tachos, Eleni Georga, Kostas Marias, Manolis Tsiknakis, Dimitrios I. Fotiadis,
- Abstract要約: 合成データの忠実度を定量的かつ視覚的に評価するモジュール型PythonベースのライブラリであるSynthetic Data Blueprint (SDB)を紹介した。
i)自動機能型検出、(ii)分散および依存性レベルの忠実度メトリクス、(iii)グラフと埋め込みに基づく構造保存スコア、(iv)データ視覚化スキーマの豊富なスイート。
- 参考スコア(独自算出の注目度): 1.5441436657738097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving era of Artificial Intelligence (AI), synthetic data are widely used to accelerate innovation while preserving privacy and enabling broader data accessibility. However, the evaluation of synthetic data remains fragmented across heterogeneous metrics, ad-hoc scripts, and incomplete reporting practices. To address this gap, we introduce Synthetic Data Blueprint (SDB), a modular Pythonic based library to quantitatively and visually assess the fidelity of synthetic tabular data. SDB supports: (i) automated feature-type detection, (ii) distributional and dependency-level fidelity metrics, (iii) graph- and embedding-based structure preservation scores, and (iv) a rich suite of data visualization schemas. To demonstrate the breadth, robustness, and domain-agnostic applicability of the SDB, we evaluated the framework across three real-world use cases that differ substantially in scale, feature composition, statistical complexity, and downstream analytical requirements. These include: (i) healthcare diagnostics, (ii) socioeconomic and financial modelling, and (iii) cybersecurity and network traffic analysis. These use cases reveal how SDB can address diverse data fidelity assessment challenges, varying from mixed-type clinical variables to high-cardinality categorical attributes and high-dimensional telemetry signals, while at the same time offering a consistent, transparent, and reproducible benchmarking across heterogeneous domains.
- Abstract(参考訳): 人工知能(AI)の急速な発展期には、プライバシを保護し、より広範なデータアクセシビリティを実現するとともに、イノベーションを加速するために合成データが広く使用されている。
しかし、合成データの評価はヘテロジニアスなメトリクス、アドホックなスクリプト、不完全なレポートプラクティスで断片化されている。
このギャップに対処するために、合成表データの忠実度を定量的かつ視覚的に評価するモジュール型PythonベースのライブラリであるSynthetic Data Blueprint (SDB)を導入する。
SDB のサポート:
(i)自動特徴型検出
(II)分布および依存性レベルの忠実度指標
三 グラフ及び埋め込みに基づく構造保存スコア、及び
(iv)データビジュアライゼーションスキーマの豊富なスイート。
SDBの広さ、堅牢性、ドメインに依存しない適用性を示すため、我々は、スケール、特徴構成、統計的複雑さ、下流分析要求で大きく異なる3つの実世界のユースケースでフレームワークを評価した。
以下を含む。
(i)医療診断、
(二)社会経済・金融モデル、及び
三 サイバーセキュリティ及びネットワークトラフィック分析
これらのユースケースは、SDBが多種多様なデータ忠実度評価にどう対処できるかを明らかにしており、混合型臨床変数から高次カテゴリ属性、高次元テレメトリ信号まで様々であり、同時に、異種ドメインにわたって一貫した透明で再現可能なベンチマークを提供する。
関連論文リスト
- Forecasting-Based Biomedical Time-series Data Synthesis for Open Data and Robust AI [0.841508985473488]
本稿では,先進的な予測モデルに基づく生医学的時系列データ生成のためのフレームワークを提案する。
これらの合成データセットは、実データの本質的時間的およびスペクトル的特性を保存している。
論文 参考訳(メタデータ) (2025-10-06T09:32:10Z) - Graph-Convolutional-Beta-VAE for Synthetic Abdominal Aorta Aneurysm Generation [4.363232795241618]
本研究は, 人工腹部大動脈瘤(AAA)生成のためのβ可変オートエンコーダグラフ畳み込みニューラルネットワークフレームワークを提案する。
提案手法は, 解剖学的特徴を抽出し, コンパクトな非絡み合い空間内での複雑な統計的関係を捉える。
合成AAAデータセットは患者のプライバシを保護し、医療研究、デバイステスト、計算モデリングのためのスケーラブルな基盤を提供する。
論文 参考訳(メタデータ) (2025-06-16T15:55:56Z) - What's Wrong with Your Synthetic Tabular Data? Using Explainable AI to Evaluate Generative Models [1.024113475677323]
我々は、実データと合成データとを区別するために訓練されたバイナリ検出分類器に、説明可能なAI(XAI)技術を適用した。
分類器は分布差を識別するが、XAIの概念は置換特徴の重要性、部分依存プロット、シェープリー値などの方法で解析され、なぜ合成データが識別可能であるかを明らかにする。
この解釈可能性は、合成データ評価における透明性を高め、従来のメトリクスを超えて深い洞察を提供する。
論文 参考訳(メタデータ) (2025-04-29T12:10:52Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Evaluating Inter-Column Logical Relationships in Synthetic Tabular Data Generation [49.898152180805454]
本稿では,論理的関係の保存性を評価するための3つの評価指標を提案する。
実世界の産業データセット上での古典的手法と最先端の手法の両方の性能を評価することにより,これらの指標を検証する。
論文 参考訳(メタデータ) (2025-02-06T13:13:26Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。
本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文 参考訳(メタデータ) (2022-10-16T22:46:08Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。