論文の概要: Auditing and Generating Synthetic Data with Controllable Trust
Trade-offs
- arxiv url: http://arxiv.org/abs/2304.10819v2
- Date: Tue, 2 May 2023 23:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 17:26:17.407237
- Title: Auditing and Generating Synthetic Data with Controllable Trust
Trade-offs
- Title(参考訳): 制御可能な信頼トレードオフによる合成データの監査と生成
- Authors: Brian Belgodere, Pierre Dognin, Adam Ivankay, Igor Melnyk, Youssef
Mroueh, Aleksandra Mojsilovic, Jiri Navratil, Apoorva Nitsure, Inkit Padhi,
Mattia Rigotti, Jerret Ross, Yair Schiff, Radhika Vedpathak, and Richard A.
Young
- Abstract要約: 本稿では,合成データセットとAIモデルを総合的に評価する監査フレームワークを提案する。
我々は,教育,医療,銀行,人的資源,多種多様なモダリティを含む多様なユースケースにおいて,複数の生成モデルを監査することによって,我々の枠組みを実証する。
我々は、所定の保護と所望のトレードオフに基づいて、複数の合成データセットをランク付けする信頼指数を導入する。
- 参考スコア(独自算出の注目度): 67.391972987504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data collected from the real world tends to be biased, unbalanced, and at
risk of exposing sensitive and private information. This reality has given rise
to the idea of creating synthetic datasets to alleviate risk, bias, harm, and
privacy concerns inherent in the real data. This concept relies on Generative
AI models to produce unbiased, privacy-preserving synthetic data while being
true to the real data. In this new paradigm, how can we tell if this approach
delivers on its promises? We present an auditing framework that offers a
holistic assessment of synthetic datasets and AI models trained on them,
centered around bias and discrimination prevention, fidelity to the real data,
utility, robustness, and privacy preservation. We showcase our framework by
auditing multiple generative models on diverse use cases, including education,
healthcare, banking, human resources, and across different modalities, from
tabular, to time-series, to natural language. Our use cases demonstrate the
importance of a holistic assessment in order to ensure compliance with
socio-technical safeguards that regulators and policymakers are increasingly
enforcing. For this purpose, we introduce the trust index that ranks multiple
synthetic datasets based on their prescribed safeguards and their desired
trade-offs. Moreover, we devise a trust-index-driven model selection and
cross-validation procedure via auditing in the training loop that we showcase
on a class of transformer models that we dub TrustFormers, across different
modalities. This trust-driven model selection allows for controllable trust
trade-offs in the resulting synthetic data. We instrument our auditing
framework with workflows that connect different stakeholders from model
development to audit and certification via a synthetic data auditing report.
- Abstract(参考訳): 現実世界から収集されたデータはバイアスがかかり、バランスが取れず、機密情報や個人情報が漏洩するリスクがある。
この現実は、実際のデータに固有のリスク、バイアス、危害、プライバシーの懸念を軽減するために、合成データセットを作成するというアイデアを生み出した。
このコンセプトは、生成AIモデルを使用して、実際のデータに忠実なまま、バイアスのないプライバシー保護された合成データを生成する。
この新しいパラダイムでは、このアプローチが約束を果たすかどうかをどうやって判断すればよいのか?
本稿では,それらのデータセットとaiモデルを総合的に評価し,バイアスと差別防止,実データへの忠実性,実用性,堅牢性,プライバシ保護を中心に評価する監査フレームワークを提案する。
我々は,教育,医療,銀行,人的資源,そして表形式から時系列,自然言語に至るまで,さまざまな形態のさまざまなユースケースにおいて,複数の生成モデルを監査することによって,我々の枠組みを実証する。
当社のユースケースは、規制当局や政策立案者がますます実施している社会技術保護へのコンプライアンスを確保するために、総合的な評価の重要性を示すものである。
そこで本研究では,複数の合成データセットを所定のセーフガードと所望のトレードオフに基づいて分類する信頼指数を提案する。
さらに,我々は,異なるモダリティにまたがって,信頼者を引き合いに出すトランスフォーマーのクラスで紹介するトレーニングループの監査を通じて,信頼インデックス駆動モデル選択と相互評価手順を考案する。
この信頼駆動モデルの選択は、結果の合成データで制御可能な信頼トレードオフを可能にする。
当社の監査フレームワークには,モデル開発から監査,認定に至るまで,さまざまな利害関係者を合成データ監査レポートを通じて接続するワークフローが組み込まれています。
関連論文リスト
- Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - Advancing Retail Data Science: Comprehensive Evaluation of Synthetic Data [13.139215811928931]
本稿では, 総合的な小売データ評価フレームワークを導入し, 忠実度, 実用性, プライバシに着目した。
提案手法は連続データ属性と離散データ属性を区別し,正確な評価基準を提供する。
以上の結果から,このフレームワークが総合小売データに対して信頼性およびスケーラブルな評価を提供することが明らかとなった。
論文 参考訳(メタデータ) (2024-06-19T00:47:38Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - The Use of Synthetic Data to Train AI Models: Opportunities and Risks
for Sustainable Development [0.6906005491572401]
本稿では,合成データの生成,利用,普及を規定する政策について検討する。
優れた合成データポリシーは、プライバシの懸念とデータの有用性のバランスを取らなければならない。
論文 参考訳(メタデータ) (2023-08-31T23:18:53Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - A Privacy-Preserving and Trustable Multi-agent Learning Framework [34.28936739262812]
本稿では,プライバシ保護と信頼性のある分散学習(PT-DL)を提案する。
PT-DLは、エージェントのデータに対する強力なプライバシ保護を保証するために、差分プライバシに依存する、完全に分散化されたフレームワークである。
本論文は,PT-DLが50%の衝突攻撃に対して,悪意のある信頼モデルで高い確率で回復可能であることを示す。
論文 参考訳(メタデータ) (2021-06-02T15:46:27Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Trustworthy Transparency by Design [57.67333075002697]
本稿では,ユーザ信頼とエクスペリエンスに関する研究を取り入れた,ソフトウェア設計のための透明性フレームワークを提案する。
私たちのフレームワークは、その設計に透明性を取り入れたソフトウェアの開発を可能にします。
論文 参考訳(メタデータ) (2021-03-19T12:34:01Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - Really Useful Synthetic Data -- A Framework to Evaluate the Quality of
Differentially Private Synthetic Data [2.538209532048867]
プライバシ保護の原則を付加する合成データ生成の最近の進歩は、プライバシ保護の方法で統計情報を共有するための重要なステップである。
データプライバシとデータ品質のトレードオフを最適化するためには、後者について詳しく考える必要があります。
本研究では,応用研究者の視点から,差分的にプライベートな合成データの質を評価する枠組みを開発する。
論文 参考訳(メタデータ) (2020-04-16T16:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。