論文の概要: Sharing is CAIRing: Characterizing Principles and Assessing Properties
of Universal Privacy Evaluation for Synthetic Tabular Data
- arxiv url: http://arxiv.org/abs/2312.12216v1
- Date: Tue, 19 Dec 2023 15:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:14:44.928548
- Title: Sharing is CAIRing: Characterizing Principles and Assessing Properties
of Universal Privacy Evaluation for Synthetic Tabular Data
- Title(参考訳): 共有は静かだ: 表データ合成のための普遍的プライバシー評価の原理と特性評価
- Authors: Tobias Hyrup, Anton Danholt Lautrup, Arthur Zimek, Peter
Schneider-Kamp
- Abstract要約: 比較可能性、適用性、解釈可能性、代表性(CAIR)の4つの原則を同定する。
本研究は,CAIRの原則とルーブリックの適用性および有用性について,他の研究で広く普及している指標の選択を評価して検討する。
- 参考スコア(独自算出の注目度): 3.67056030380617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data sharing is a necessity for innovative progress in many domains,
especially in healthcare. However, the ability to share data is hindered by
regulations protecting the privacy of natural persons. Synthetic tabular data
provide a promising solution to address data sharing difficulties but does not
inherently guarantee privacy. Still, there is a lack of agreement on
appropriate methods for assessing the privacy-preserving capabilities of
synthetic data, making it difficult to compare results across studies. To the
best of our knowledge, this is the first work to identify properties that
constitute good universal privacy evaluation metrics for synthetic tabular
data. The goal of such metrics is to enable comparability across studies and to
allow non-technical stakeholders to understand how privacy is protected. We
identify four principles for the assessment of metrics: Comparability,
Applicability, Interpretability, and Representativeness (CAIR). To quantify and
rank the degree to which evaluation metrics conform to the CAIR principles, we
design a rubric using a scale of 1-4. Each of the four properties is scored on
four parameters, yielding 16 total dimensions. We study the applicability and
usefulness of the CAIR principles and rubric by assessing a selection of
metrics popular in other studies. The results provide granular insights into
the strengths and weaknesses of existing metrics that not only rank the metrics
but highlight areas of potential improvements. We expect that the CAIR
principles will foster agreement among researchers and organizations on which
universal privacy evaluation metrics are appropriate for synthetic tabular
data.
- Abstract(参考訳): データ共有は、多くの分野、特に医療分野における革新的進歩に不可欠である。
しかし、データの共有は自然人のプライバシーを守る規制によって妨げられている。
合成表データは、データ共有の困難に対処する有望なソリューションを提供するが、本質的にプライバシーを保証しない。
それでも、合成データのプライバシー保護能力を評価するための適切な方法に関する合意がないため、研究間で結果を比較することは困難である。
私たちの知る限りでは、合成表データのための優れた普遍的プライバシー評価指標を構成するプロパティを識別する最初の作業です。
このようなメトリクスの目標は、研究間でのコンパラビリティの実現と、非技術ステークホルダがプライバシ保護の方法を理解することにある。
分析性,適用性,解釈性,代表性(cair)の4つの評価原則を特定した。
評価指標がCAIRの原則に適合する程度を定量化し、ランク付けするために、1-4スケールのルーリックを設計する。
4つの特性はそれぞれ4つのパラメータでスコアされ、合計16の次元が与えられる。
本研究は,CAIRの原則とルーブリックの適用性および有用性について,他の研究で広く普及している指標の選択を評価した。
結果は、メトリクスをランク付けするだけでなく、潜在的な改善の領域を強調する既存のメトリクスの強みと弱みに関する詳細な洞察を提供する。
我々は、CAIR原則が、総合的なプライバシー評価指標が合成表データに適切である研究者や組織間の合意を促進することを期待している。
関連論文リスト
- Defining 'Good': Evaluation Framework for Synthetic Smart Meter Data [14.779917834583577]
スマートメーターデータセットのプライバシーリスクを評価するには,標準プライバシ攻撃手法が不十分であることを示す。
本稿では,トレーニングデータを不確実なアウトレーラで注入し,それらのアウトレーラに直接プライバシ攻撃を発生させる手法を提案する。
論文 参考訳(メタデータ) (2024-07-16T14:41:27Z) - An applied Perspective: Estimating the Differential Identifiability Risk of an Exemplary SOEP Data Set [2.66269503676104]
基本的統計的クエリの集合に対して,リスクメトリックを効率的に計算する方法を示す。
実世界の科学的データセットに基づいた実証分析は、現実的な条件下でのリスクの計算方法に関する知識を拡大します。
論文 参考訳(メタデータ) (2024-07-04T17:50:55Z) - Metric geometry of the privacy-utility tradeoff [7.5764890276775665]
基礎空間の計量幾何学により最適なプライバシー・正確性トレードオフを特徴付けるための枠組みを提案する。
メカニカルスペースのさまざまな例を通して、プライバシ-正確性トレードオフフレームワークの適用性を説明します。
論文 参考訳(メタデータ) (2024-05-01T05:31:53Z) - Scaling While Privacy Preserving: A Comprehensive Synthetic Tabular Data
Generation and Evaluation in Learning Analytics [0.412484724941528]
プライバシーは学習分析(LA)の進歩に大きな障害となり、匿名化の不十分さやデータ誤用といった課題を提示している。
合成データは潜在的な対策として現れ、堅牢なプライバシー保護を提供する。
LAの合成データに関する以前の研究では、プライバシーとデータユーティリティの微妙なバランスを評価するのに不可欠な、徹底的な評価が欠如していた。
論文 参考訳(メタデータ) (2024-01-12T20:27:55Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Estimation of Fair Ranking Metrics with Incomplete Judgments [70.37717864975387]
本研究では,4つの評価指標のサンプリング手法と推定手法を提案する。
ラベル付きアイテムの数が極めて少ない場合でも動作可能な頑健で偏りのない推定器を定式化する。
論文 参考訳(メタデータ) (2021-08-11T10:57:00Z) - Really Useful Synthetic Data -- A Framework to Evaluate the Quality of
Differentially Private Synthetic Data [2.538209532048867]
プライバシ保護の原則を付加する合成データ生成の最近の進歩は、プライバシ保護の方法で統計情報を共有するための重要なステップである。
データプライバシとデータ品質のトレードオフを最適化するためには、後者について詳しく考える必要があります。
本研究では,応用研究者の視点から,差分的にプライベートな合成データの質を評価する枠組みを開発する。
論文 参考訳(メタデータ) (2020-04-16T16:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。