論文の概要: Privacy Amplification Through Synthetic Data: Insights from Linear Regression
- arxiv url: http://arxiv.org/abs/2506.05101v1
- Date: Thu, 05 Jun 2025 14:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.767095
- Title: Privacy Amplification Through Synthetic Data: Insights from Linear Regression
- Title(参考訳): 合成データによるプライバシの増幅:線形回帰からの洞察
- Authors: Clément Pierquin, Aurélien Bellet, Marc Tommasi, Matthieu Boussard,
- Abstract要約: ランダムな入力から合成データが生成されると、限られた数の合成データポイントが、モデル固有の保証以上のプライバシーを増幅することを示す。
線形回帰に関する我々の発見は、将来的にはより一般的な境界を導出するための基礎となると信じている。
- 参考スコア(独自算出の注目度): 14.00448138862085
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Synthetic data inherits the differential privacy guarantees of the model used to generate it. Additionally, synthetic data may benefit from privacy amplification when the generative model is kept hidden. While empirical studies suggest this phenomenon, a rigorous theoretical understanding is still lacking. In this paper, we investigate this question through the well-understood framework of linear regression. First, we establish negative results showing that if an adversary controls the seed of the generative model, a single synthetic data point can leak as much information as releasing the model itself. Conversely, we show that when synthetic data is generated from random inputs, releasing a limited number of synthetic data points amplifies privacy beyond the model's inherent guarantees. We believe our findings in linear regression can serve as a foundation for deriving more general bounds in the future.
- Abstract(参考訳): 合成データは、それを生成するために使用されるモデルの差分プライバシー保証を継承する。
さらに、合成データは、生成モデルを隠されたままにしておくと、プライバシーの増幅の恩恵を受ける可能性がある。
実証的研究はこの現象を示唆しているが、厳密な理論的理解はいまだに欠けている。
本稿では,線形回帰の枠組みをよく理解して,この問題を考察する。
まず、敵が生成モデルのシードを制御すると、単一の合成データポイントがモデル自体を解放するのと同じくらい多くの情報を漏らす可能性があることを示す。
逆に、ランダムな入力から合成データが生成されると、限られた数の合成データポイントがモデル固有の保証以上のプライバシーを増幅することを示す。
線形回帰に関する我々の発見は、将来的にはより一般的な境界を導出するための基礎となると信じている。
関連論文リスト
- A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text [23.412546862849396]
我々は、事前訓練された大規模言語モデル(LLM)を微調整するために使用されるデータをターゲットにした会員推論攻撃(MIA)を設計する。
このようなデータに基づくMIAは、ランダムな推測よりもはるかに優れていることを示し、これは、合成データがトレーニングデータに関する情報を漏洩することを意味する。
この問題に対処するために、自動回帰モデルの力学を活用して、非分配プレフィックスと高パープレキサフィックスを備えたカナリアを設計する。
論文 参考訳(メタデータ) (2025-02-19T15:30:30Z) - How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。
半合成データを得るために,人為的データに対するトークン編集を提案する。
論文 参考訳(メタデータ) (2024-12-19T09:43:39Z) - Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data [49.73114504515852]
各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを示す。
生成した実データと連続する合成データの蓄積は,モデル崩壊を回避することを実証する。
論文 参考訳(メタデータ) (2024-04-01T18:31:24Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。