論文の概要: Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets
- arxiv url: http://arxiv.org/abs/2603.03906v2
- Date: Thu, 05 Mar 2026 08:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.369036
- Title: Measuring Privacy vs. Fidelity in Synthetic Social Media Datasets
- Title(参考訳): 合成ソーシャルメディアデータセットにおけるプライバシー対忠実度の測定
- Authors: Henry Tari, Adriana Iamnitchi,
- Abstract要約: 合成された非構造化テキストのプライバシーリスクについてはあまり知られていない。
この研究は、3つの最先端の大規模言語モデルによって生成された合成Instagram投稿のプライバシーを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthetic data is increasingly used to support research without exposing sensitive user content. Social media data is one of the types of datasets that would hugely benefit from representative synthetic equivalents that can be used to bootstrap research and allow reproducibility through data sharing. However, recent studies show that (tabular) synthetic data is not inherently privacy-preserving. Much less is known, however, about the privacy risks of synthetically generated unstructured texts. This work evaluates the privacy of synthetic Instagram posts generated by three state-of-the-art large language models using two prompting strategies. We propose a methodology that quantifies privacy by framing re-identification as an authorship attribution attack. A RoBERTa-large classifier trained on real posts achieved 81\% accuracy in authorship attribution on real data, but only 16.5--29.7\% on synthetic posts, showing reduced, though non-negligible, risk. Fidelity was assessed via text traits, sentiment, topic overlap, and embedding similarity, confirming the expected trade-off: higher fidelity coincides with greater privacy leakage. This work provides a framework for evaluating privacy in synthetic text and demonstrates the privacy--fidelity tension in social media datasets.
- Abstract(参考訳): センシティブなユーザーコンテンツを露出することなく研究を支援するために、合成データの利用が増えている。
ソーシャルメディアデータは、研究をブートストラップし、データ共有による再現性を実現するために使用できる、代表的な合成等価データから大きな恩恵を受けるデータセットの1つである。
しかし、最近の研究では、(タブラル)合成データは本質的にプライバシー保護ではないことが示されている。
しかし、合成された非構造化テキストのプライバシーリスクについてはあまり知られていない。
この研究は、2つのプロンプト戦略を使用して、3つの最先端の大規模言語モデルによって生成された合成Instagram投稿のプライバシーを評価する。
本稿では,著者帰属攻撃として再識別を行うことによってプライバシを定量化する手法を提案する。
実際のポストで訓練されたRoBERTa-large分類器は、実際のデータで著者の属性の81倍の精度を達成したが、合成ポストでは16.5--29.7倍の精度しか得られなかった。
フィデリティはテキストの特徴、感情、トピックの重複、および埋め込み類似性を通じて評価され、期待されるトレードオフを確認した。
この研究は、合成テキストでプライバシを評価するためのフレームワークを提供し、ソーシャルメディアデータセットにおけるプライバシとフィデリティの緊張を実証する。
関連論文リスト
- Empirical Evaluation of Structured Synthetic Data Privacy Metrics: Novel experimental framework [34.56525983543448]
プライバシー強化技術として、合成データ生成が注目を集めている。
データプライバシの概念はいまだ解明されていないため、実践者が合成データが提供するプライバシ保護の程度を評価し、ベンチマークすることは困難である。
論文 参考訳(メタデータ) (2025-12-18T08:09:28Z) - How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - Zero-Shot Privacy-Aware Text Rewriting via Iterative Tree Search [60.197239728279534]
クラウドベースのサービスにおける大規模言語モデル(LLM)は、重大なプライバシー上の懸念を引き起こしている。
既存のテキスト匿名化と、ルールベースのリアクションやスクラブのような非識別技術は、プライバシー保護とテキストの自然性と実用性のバランスをとるのに苦労することが多い。
我々は,一貫性,妥当性,自然性を保ちながら,秘密情報を体系的に難読化・削除するゼロショット木探索型反復文書き換えアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-25T07:23:52Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - Protecting Vulnerable Voices: Synthetic Dataset Generation for Self-Disclosure Detection [3.501477476787197]
我々は、安全に共有可能なPII-Revealingデータの合成等価性を作成するための新しい手法を開発した。
私たちの貢献は、脆弱な人口に対する19のPII-Revealingカテゴリの分類の作成を含む。
合成データ上でのモデルトレーニングの結果は、オリジナルの投稿で同じモデルをトレーニングしたモデルに匹敵するものでなければならない。
論文 参考訳(メタデータ) (2025-07-24T12:32:40Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - A Consensus Privacy Metrics Framework for Synthetic Data [13.972528788909813]
合成データのプライバシーを測定するための統合された標準は存在しない。
以上の結果から,現在の類似度指標は個人情報の開示を測ることが困難であることが示唆された。
異なるプライベートな合成データについては、ゼロに近いプライバシー予算は解釈できないと考えられていた。
論文 参考訳(メタデータ) (2025-03-06T21:19:02Z) - The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets [12.730435519914415]
実世界の合成データデプロイメントで使用されるプライバシメトリクスを調べ、その信頼性をいくつかの点で実証する。
ReconSynは、メトリクスによってプライベートと見なされるが、個々のレコードに固有の情報をリークする複数の合成データセットを生成するリコンストラクション攻撃である。
ReconSynは列車データから78-100%のアウトレーヤを復元し、ブラックボックスアクセスのみを1つの適合した生成モデルとプライバシメトリクスに含める。
論文 参考訳(メタデータ) (2023-12-08T15:42:28Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Synthetic Data -- Anonymisation Groundhog Day [4.694549066382216]
本稿では,合成データ公開におけるプライバシ向上の定量的評価について述べる。
合成データは、推論攻撃を防ぎ、データの有用性を保たないことを示す。
従来の匿名化とは対照的に、合成データ公開のプライバシーとユーティリティのトレードオフは予測が難しい。
論文 参考訳(メタデータ) (2020-11-13T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。