論文の概要: Struct-Bench: A Benchmark for Differentially Private Structured Text Generation
- arxiv url: http://arxiv.org/abs/2509.10696v1
- Date: Fri, 12 Sep 2025 21:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.735609
- Title: Struct-Bench: A Benchmark for Differentially Private Structured Text Generation
- Title(参考訳): Struct-Bench: 微分プライベートな構造化テキスト生成のためのベンチマーク
- Authors: Shuaiqi Wang, Vikas Raunak, Arturs Backurs, Victor Reis, Pei Zhou, Sihao Chen, Longqi Yang, Zinan Lin, Sergey Yekhanin, Giulia Fanti,
- Abstract要約: Struct-Benchは、自然言語データを含む構造化データセットから派生した合成データセットを評価するためのフレームワークである。
ベンチマークでは,実世界の5つのデータセットと合成された2つのデータセットで構成され,それぞれに文脈自由文法(CFG)を付加した。
これらのデータセットは,最先端のDP合成データ生成手法においても,明らかに大きな課題であることを示す。
- 参考スコア(独自算出の注目度): 34.596107504223944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentially private (DP) synthetic data generation is a promising technique for utilizing private datasets that otherwise cannot be exposed for model training or other analytics. While much research literature has focused on generating private unstructured text and image data, in enterprise settings, structured data (e.g., tabular) is more common, often including natural language fields or components. Existing synthetic data evaluation techniques (e.g., FID) struggle to capture the structural properties and correlations of such datasets. In this work, we propose Struct-Bench, a framework and benchmark for evaluating synthetic datasets derived from structured datasets that contain natural language data. The Struct-Bench framework requires users to provide a representation of their dataset structure as a Context-Free Grammar (CFG). Our benchmark comprises 5 real-world and 2 synthetically generated datasets, each annotated with CFGs. We show that these datasets demonstrably present a great challenge even for state-of-the-art DP synthetic data generation methods. Struct-Bench also includes reference implementations of different metrics and a leaderboard, thereby providing researchers a standardized evaluation platform to benchmark and investigate privacy-preserving synthetic data generation methods. Further, we also present a case study showing how to use Struct-Bench to improve the synthetic data quality of Private Evolution (PE) on structured data. The benchmark and the leaderboard have been publicly made available at https://struct-bench.github.io.
- Abstract(参考訳): 微分プライベート(DP)合成データ生成は、モデルトレーニングや他の分析には公開できないプライベートデータセットを利用するための有望なテクニックである。
多くの研究文献は、プライベートな構造化されていないテキストや画像データを生成することに重点を置いているが、エンタープライズ環境では、構造化されたデータ(例:表)の方が一般的であり、しばしば自然言語のフィールドやコンポーネントを含んでいる。
既存の合成データ評価技術(例えば、FID)は、そのようなデータセットの構造的特性と相関を捉えるのに苦労する。
本研究では,自然言語データを含む構造化データセットから得られた合成データセットを評価するためのフレームワークとベンチマークであるStruct-Benchを提案する。
Struct-Benchフレームワークでは,データセット構造をCFG(Context-Free Grammar)として表現する必要がある。
ベンチマークでは,実世界の5つのデータセットと合成された2つのデータセットで構成され,それぞれにCFGを付加した。
これらのデータセットは,最先端のDP合成データ生成手法においても,明らかに大きな課題であることを示す。
Struct-Benchには、さまざまなメトリクスのリファレンス実装や、リーダボードも含まれている。これにより、プライバシを保存する合成データ生成方法のベンチマークと調査を行うための、標準化された評価プラットフォームが提供される。
さらに,Struct-Benchを用いて,構造化データ上でのPE(Private Evolution)の合成データ品質を改善するケーススタディも提示する。
ベンチマークとリーダボードはhttps://struct-bench.github.io.comで公開されている。
関連論文リスト
- StructSynth: Leveraging LLMs for Structure-Aware Tabular Data Synthesis in Low-Data Regimes [15.476662936746989]
構造化シンス(Struct Synth)は、大規模言語モデルの生成能力と堅牢な構造制御を統合する新しいフレームワークである。
最先端の手法よりもはるかに高い構造整合性と下流の実用性を持つ合成データを生成する。
これは低データのシナリオに挑戦する上で特に有効であることが証明され、プライバシー保護と統計的忠実性の間のトレードオフをナビゲートすることに成功した。
論文 参考訳(メタデータ) (2025-08-04T16:55:02Z) - StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation [8.251302684712773]
StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。
提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
論文 参考訳(メタデータ) (2025-07-28T21:20:44Z) - Structured Evaluation of Synthetic Tabular Data [6.418460620178983]
タブラルデータは一般的には不完全であり、ボリュームは小さく、プライバシー上の懸念からアクセス制限されている。
本稿では,観測データと同じ分布から合成データを抽出すべきと仮定した,単一の数学的目的を持つ評価フレームワークを提案する。
深層学習を利用した構造情報型シンセサイザーとシンセサイザーの評価を行った。
論文 参考訳(メタデータ) (2024-03-15T15:58:37Z) - Unifying Structured Data as Graph for Data-to-Text Pre-Training [69.96195162337793]
Data-to-text (D2T) の生成は、構造化されたデータを自然言語テキストに変換することを目的としている。
データからテキストへの事前学習は、D2T生成の強化に強力であることが証明された。
構造強化トランスを設計し,D2T生成のための構造強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T12:23:49Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - A Framework for End-to-End Learning on Semantic Tree-Structured Data [4.241801379755808]
構造化データの一般的な形態は、私たちが「セマンティックツリー構造」と呼ぶものである。
汎用意味木構造データに基づくエンドツーエンド学習のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-13T18:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。