論文の概要: Faking feature importance: A cautionary tale on the use of
differentially-private synthetic data
- arxiv url: http://arxiv.org/abs/2203.01363v1
- Date: Wed, 2 Mar 2022 19:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 16:46:20.659721
- Title: Faking feature importance: A cautionary tale on the use of
differentially-private synthetic data
- Title(参考訳): ファキングの特徴の重要性:差分私的合成データの利用に関する注意物語
- Authors: Oscar Giles, Kasra Hosseini, Grigorios Mingas, Oliver Strickson,
Louise Bowler, Camila Rangel Smith, Harrison Wilde, Jen Ning Lim, Bilal
Mateen, Kasun Amarasinghe, Rayid Ghani, Alison Heppenstall, Nik Lomax, Nick
Malleson, Martin O'Reilly, Sebastian Vollmerteke
- Abstract要約: 本稿では,生データから得られる特徴量と合成データから得られる特徴量との一致を実証的に分析する。
プライバシのレベルによって異なるため、さまざまなユーティリティー対策を適用して、特徴的重要性の合意を定量化します。
この研究は、金融や医療といった分野において、高感度データセットの合成バージョンを開発する上で重要な意味を持つ。
- 参考スコア(独自算出の注目度): 3.631918877491949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic datasets are often presented as a silver-bullet solution to the
problem of privacy-preserving data publishing. However, for many applications,
synthetic data has been shown to have limited utility when used to train
predictive models. One promising potential application of these data is in the
exploratory phase of the machine learning workflow, which involves
understanding, engineering and selecting features. This phase often involves
considerable time, and depends on the availability of data. There would be
substantial value in synthetic data that permitted these steps to be carried
out while, for example, data access was being negotiated, or with fewer
information governance restrictions. This paper presents an empirical analysis
of the agreement between the feature importance obtained from raw and from
synthetic data, on a range of artificially generated and real-world datasets
(where feature importance represents how useful each feature is when predicting
a the outcome). We employ two differentially-private methods to produce
synthetic data, and apply various utility measures to quantify the agreement in
feature importance as this varies with the level of privacy. Our results
indicate that synthetic data can sometimes preserve several representations of
the ranking of feature importance in simple settings but their performance is
not consistent and depends upon a number of factors. Particular caution should
be exercised in more nuanced real-world settings, where synthetic data can lead
to differences in ranked feature importance that could alter key modelling
decisions. This work has important implications for developing synthetic
versions of highly sensitive data sets in fields such as finance and
healthcare.
- Abstract(参考訳): 合成データセットはしばしば、プライバシ保存データパブリッシングの問題に対するシルバーブルレットソリューションとして提示される。
しかし、多くの応用において、合成データは予測モデルを訓練する際に限られた効用を有することが示されている。
これらのデータの有望な応用の1つは、機能の理解、エンジニアリング、選択を含む機械学習ワークフローの探索段階にある。
このフェーズは、しばしばかなりの時間を要するが、データの可用性に依存する。
例えば、データアクセスが交渉されたり、情報ガバナンスの制限が減っていたりしている間に、これらのステップの実行を許可する合成データには実質的な価値があります。
本稿では,生データと合成データから得られた特徴量と,人工的に生成されたデータセットと実世界のデータセット(特徴量の重要性が各特徴が結果を予測する際の有用性を示す)との一致を実証的に分析する。
合成データの生成には2つの異なるプライベートな手法を用いており、プライバシーのレベルによって異なるため、コンセンサスを重要度で定量化するために様々なユーティリティー対策を適用している。
以上の結果から,合成データは機能重要度ランキングのいくつかの表現を単純な設定で保持することができるが,その性能は一貫性がなく,多くの要因に依存する。
合成データは、重要なモデリング決定を変える可能性のある、ランク付けされた特徴の重要性の差をもたらす可能性がある。
この研究は、金融や医療といった分野における高感度データセットの合成バージョンの開発に重要な意味を持つ。
関連論文リスト
- Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Data in Healthcare [10.555189948915492]
本稿では,データ作成のための物理・統計シミュレーションの事例と医療・医療への応用について述べる。
人工物は、プライバシ、エクイティ、安全性、継続的な、因果学習を促進することができるが、欠陥や盲点を導入し、バイアスを伝播または誇張するリスクも負う。
論文 参考訳(メタデータ) (2023-04-06T17:23:39Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - Synthetic Data: Methods, Use Cases, and Risks [11.413309528464632]
研究コミュニティと業界の両方で勢いを増す可能性のある選択肢は、代わりに合成データを共有することだ。
我々は、合成データについて穏やかに紹介し、そのユースケース、未適応のプライバシー問題、そしてその固有の制限を効果的なプライバシー強化技術として論じます。
論文 参考訳(メタデータ) (2023-03-01T16:35:33Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - Bias Mitigated Learning from Differentially Private Synthetic Data: A
Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。
民営化確率比を用いた複数のバイアス緩和戦略を提案する。
バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T19:56:44Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - A Philosophy of Data [91.3755431537592]
我々は、統計計算に必要な基本特性から統計データの定義まで研究する。
我々は、有用なデータの必要性は、プロパティを根本的にユニークか等しく理解することを規則化する必要があると論じている。
データとデータ技術への依存度が高まるにつれて、この2つの特徴は現実の集合概念に影響を与えます。
論文 参考訳(メタデータ) (2020-04-15T14:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。