Fugu-MT 論文翻訳(概要): Defining 'Good': Evaluation Framework for Synthetic Smart Meter Data

論文の概要: Defining 'Good': Evaluation Framework for Synthetic Smart Meter Data

arxiv url: http://arxiv.org/abs/2407.11785v1
Date: Tue, 16 Jul 2024 14:41:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 14:32:53.079093
Title: Defining 'Good': Evaluation Framework for Synthetic Smart Meter Data
Title（参考訳）: Good"の定義 - スマートメーターデータのための評価フレームワーク
Authors: Sheng Chai, Gus Chadney, Charlot Avery, Phil Grunewald, Pascal Van Hentenryck, Priya L. Donti,
Abstract要約: スマートメーターデータセットのプライバシーリスクを評価するには,標準プライバシ攻撃手法が不十分であることを示す。本稿では,トレーニングデータを不確実なアウトレーラで注入し,それらのアウトレーラに直接プライバシ攻撃を発生させる手法を提案する。
参考スコア（独自算出の注目度）: 14.779917834583577
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Access to granular demand data is essential for the net zero transition; it allows for accurate profiling and active demand management as our reliance on variable renewable generation increases. However, public release of this data is often impossible due to privacy concerns. Good quality synthetic data can circumnavigate this issue. Despite significant research on generating synthetic smart meter data, there is still insufficient work on creating a consistent evaluation framework. In this paper, we investigate how common frameworks used by other industries leveraging synthetic data, can be applied to synthetic smart meter data, such as fidelity, utility and privacy. We also recommend specific metrics to ensure that defining aspects of smart meter data are preserved and test the extent to which privacy can be protected using differential privacy. We show that standard privacy attack methods like reconstruction or membership inference attacks are inadequate for assessing privacy risks of smart meter datasets. We propose an improved method by injecting training data with implausible outliers, then launching privacy attacks directly on these outliers. The choice of $\epsilon$ (a metric of privacy loss) significantly impacts privacy risk, highlighting the necessity of performing these explicit privacy tests when making trade-offs between fidelity and privacy.
Abstract（参考訳）: 変動再生可能生成への依存が増大するにつれて、正確なプロファイリングとアクティブな需要管理が可能になる。しかし、プライバシー上の懸念から、このデータの公開は不可能であることが多い。高品質な合成データはこの問題を回避することができる。合成スマートメーターデータの生成に関する重要な研究にもかかわらず、一貫した評価フレームワークの作成にはまだまだ不十分な作業が残っている。本稿では, 合成データを活用する他の産業で使用される一般的なフレームワークが, 完全性, 実用性, プライバシなど, 合成スマートメーターデータにどのように適用できるかを検討する。また、スマートメーターデータの側面が保存されていることを保証するために、特定のメトリクスを推奨し、差分プライバシーを使用してプライバシを保護できる範囲をテストする。我々は、スマートメーターデータセットのプライバシーリスクを評価するために、再構築やメンバーシップ推論攻撃のような標準的なプライバシ攻撃手法が不十分であることを示す。本稿では,トレーニングデータを不確実なアウトレーラで注入し,それらのアウトレーラに直接プライバシ攻撃を発生させる手法を提案する。プライバシ損失の指標である$\epsilon$の選択は、プライバシーリスクに大きく影響し、不確実性とプライバシの間のトレードオフを行う際に、これらの明示的なプライバシテストを実行する必要性を強調している。

関連論文リスト

SynQP: A Framework and Metrics for Evaluating the Quality and Privacy Risk of Synthetic Data [4.73374389278596]
合成データ生成におけるプライバシーベンチマークのためのオープンフレームワークであるSynQPを紹介する。また、機械学習モデルの確率的性質を考慮に入れたプライバシー指標の必要性も強調します。私たちの仕事は、プライバシー評価の透明性と信頼性を向上させる重要なツールを提供します。
論文参考訳（メタデータ） (2026-01-17T17:51:14Z)
How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。 Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文参考訳（メタデータ） (2025-12-02T21:14:39Z)
Sensitivity, Specificity, and Consistency: A Tripartite Evaluation of Privacy Filters for Synthetic Data Generation [57.13635002340272]
個人識別可能な情報を含むサンプルを除去するためのポストホックプライバシーフィルタリング技術が提案されている。本研究は胸部X線合成に適用した濾過パイプラインの厳密な評価を行う。これらの手法がセンシティブなアプリケーションに確実にデプロイされるためには,フィルタ設計の大幅な進歩が必要であると結論付けている。
論文参考訳（メタデータ） (2025-10-02T08:32:20Z)
Differentially Private Synthetic Data Release for Topics API Outputs [63.79476766779742]
当社では,Google ChromeのPrivacy Sandboxの一部として,1つのPrivacy-Preserving Ads API – Topics APIに注目しています。実トピックAPIデータの再識別リスク特性と密に一致した、微分プライベートなデータセットを生成する。これにより、外部の研究者がAPIを詳細に分析し、現実的な大規模データセットの事前および将来の作業の再現が可能になります。
論文参考訳（メタデータ） (2025-06-30T13:46:57Z)
Information-theoretic Estimation of the Risk of Privacy Leaks [0.0]
データセット内のアイテム間の依存関係は、プライバシリークを引き起こす可能性がある。本稿では,プライバシ侵害の可能性を示唆する指標として,元データとランダム化器からのノイズ応答の相関を計測する。
論文参考訳（メタデータ） (2025-06-14T03:39:11Z)
The DCR Delusion: Measuring the Privacy Risk of Synthetic Data [8.673204690445955]
会員推論攻撃(MIA)は、合成データセットのプライバシーを実証的に評価するための金の標準として広く考えられている。これらの指標は、トレーニングデータと生成された合成データとの類似度を測定することで、プライバシを推定する。本研究では,DCRや他の距離ベースメトリクスは計算コストが低いが,プライバシリークの特定に失敗していることを示す。
論文参考訳（メタデータ） (2025-05-02T18:21:14Z)
A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文参考訳（メタデータ） (2025-04-28T01:16:27Z)
A Consensus Privacy Metrics Framework for Synthetic Data [13.972528788909813]
合成データのプライバシーを測定するための統合された標準は存在しない。以上の結果から,現在の類似度指標は個人情報の開示を測ることが困難であることが示唆された。異なるプライベートな合成データについては、ゼロに近いプライバシー予算は解釈できないと考えられていた。
論文参考訳（メタデータ） (2025-03-06T21:19:02Z)
Synthetic Data Privacy Metrics [2.1213500139850017]
我々は、敵攻撃のシミュレーションを含む人気のある指標の長所と短所を概観する。また、生成モデルを修正して、作成するデータのプライバシを高めるための現在のベストプラクティスについてもレビューします。
論文参考訳（メタデータ） (2025-01-07T17:02:33Z)
FT-PrivacyScore: Personalized Privacy Scoring Service for Machine Learning Participation [4.772368796656325]
実際には、制御されたデータアクセスは、多くの産業や研究環境でデータプライバシを保護する主要な方法である。我々は,FT-PrivacyScoreのプロトタイプを開発し,モデル微調整作業に参加する際のプライバシーリスクを効率よく定量的に推定できることを実証した。
論文参考訳（メタデータ） (2024-10-30T02:41:26Z)
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。 RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文参考訳（メタデータ） (2024-06-20T22:53:09Z)
The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets [12.730435519914415]
実世界の合成データデプロイメントで使用されるプライバシメトリクスを調べ、その信頼性をいくつかの点で実証する。 ReconSynは、メトリクスによってプライベートと見なされるが、個々のレコードに固有の情報をリークする複数の合成データセットを生成するリコンストラクション攻撃である。 ReconSynは列車データから78-100%のアウトレーヤを復元し、ブラックボックスアクセスのみを1つの適合した生成モデルとプライバシメトリクスに含める。
論文参考訳（メタデータ） (2023-12-08T15:42:28Z)
Privacy Implications of Retrieval-Based Language Models [26.87950501433784]
本稿では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。パラメトリックモデルよりも、$k$NN-LMsの方がプライベートデータストアから個人情報をリークする可能性が高いことがわかりました。
論文参考訳（メタデータ） (2023-05-24T08:37:27Z)
Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文参考訳（メタデータ） (2023-04-21T09:03:18Z)
Membership Inference Attacks against Synthetic Data through Overfitting Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文参考訳（メタデータ） (2023-02-24T11:27:39Z)
How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文参考訳（メタデータ） (2022-11-18T11:39:03Z)
No Free Lunch in "Privacy for Free: How does Dataset Condensation Help Privacy" [75.98836424725437]
データプライバシを保護するために設計された新しい手法は、慎重に精査する必要がある。プライバシ保護の失敗は検出し難いが,プライバシ保護法を実装したシステムが攻撃された場合,破滅的な結果につながる可能性がある。
論文参考訳（メタデータ） (2022-09-29T17:50:23Z)
Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。 FLと関連する技術は、しばしばプライバシー保護と表現される。この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文参考訳（メタデータ） (2021-12-21T08:44:05Z)
Deep Directed Information-Based Learning for Privacy-Preserving Smart Meter Data Release [30.409342804445306]
本稿では,時系列データとスマートメータ(SM)電力消費測定の文脈における問題点について検討する。我々は、考慮された設定において、より意味のあるプライバシーの尺度として、指向情報(DI)を導入します。最悪のシナリオにおけるSMs測定による実世界のデータセットに関する実証的研究は、プライバシとユーティリティの既存のトレードオフを示している。
論文参考訳（メタデータ） (2020-11-20T13:41:11Z)
Really Useful Synthetic Data -- A Framework to Evaluate the Quality of Differentially Private Synthetic Data [2.538209532048867]
プライバシ保護の原則を付加する合成データ生成の最近の進歩は、プライバシ保護の方法で統計情報を共有するための重要なステップである。データプライバシとデータ品質のトレードオフを最適化するためには、後者について詳しく考える必要があります。本研究では,応用研究者の視点から,差分的にプライベートな合成データの質を評価する枠組みを開発する。
論文参考訳（メタデータ） (2020-04-16T16:24:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。