論文の概要: Auditing and Generating Synthetic Data with Controllable Trust Trade-offs
- arxiv url: http://arxiv.org/abs/2304.10819v4
- Date: Sun, 9 Jun 2024 18:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 05:48:34.448088
- Title: Auditing and Generating Synthetic Data with Controllable Trust Trade-offs
- Title(参考訳): 制御可能なトラストトレードオフによる合成データの監査と生成
- Authors: Brian Belgodere, Pierre Dognin, Adam Ivankay, Igor Melnyk, Youssef Mroueh, Aleksandra Mojsilovic, Jiri Navratil, Apoorva Nitsure, Inkit Padhi, Mattia Rigotti, Jerret Ross, Yair Schiff, Radhika Vedpathak, Richard A. Young,
- Abstract要約: 合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
- 参考スコア(独自算出の注目度): 54.262044436203965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world data often exhibits bias, imbalance, and privacy risks. Synthetic datasets have emerged to address these issues. This paradigm relies on generative AI models to generate unbiased, privacy-preserving data while maintaining fidelity to the original data. However, assessing the trustworthiness of synthetic datasets and models is a critical challenge. We introduce a holistic auditing framework that comprehensively evaluates synthetic datasets and AI models. It focuses on preventing bias and discrimination, ensures fidelity to the source data, assesses utility, robustness, and privacy preservation. We demonstrate the framework's effectiveness by auditing various generative models across diverse use cases like education, healthcare, banking, and human resources, spanning different data modalities such as tabular, time-series, vision, and natural language. This holistic assessment is essential for compliance with regulatory safeguards. We introduce a trustworthiness index to rank synthetic datasets based on their safeguards trade-offs. Furthermore, we present a trustworthiness-driven model selection and cross-validation process during training, exemplified with "TrustFormers" across various data types. This approach allows for controllable trustworthiness trade-offs in synthetic data creation. Our auditing framework fosters collaboration among stakeholders, including data scientists, governance experts, internal reviewers, external certifiers, and regulators. This transparent reporting should become a standard practice to prevent bias, discrimination, and privacy violations, ensuring compliance with policies and providing accountability, safety, and performance guarantees.
- Abstract(参考訳): 現実世界のデータはしばしばバイアス、不均衡、プライバシーのリスクを示す。
これらの問題に対処するために合成データセットが登場した。
このパラダイムは、生成AIモデルに依存して、元のデータへの忠実さを維持しながら、バイアスのないプライバシ保護データを生成する。
しかし、合成データセットとモデルの信頼性を評価することは重要な課題である。
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
本フレームワークの有効性は,教育,医療,銀行,人的資源といった多様なユースケースにおいて,表や時系列,視覚,自然言語といったさまざまなデータモダリティにまたがる様々な生成モデルを監査することによって実証する。
この包括的評価は、規制保護の遵守に不可欠である。
安全上のトレードオフに基づいて、合成データセットのランク付けに信頼性指数を導入する。
さらに,信頼性駆動型モデル選択とトレーニング中のクロスバリデーションプロセスを提案し,様々なデータタイプにまたがって"TrustFormers"を例示する。
このアプローチは、合成データ生成における制御可能な信頼性のトレードオフを可能にする。
監査フレームワークは、データサイエンティスト、ガバナンスの専門家、内部レビュアー、外部認定者、規制当局など、ステークホルダー間のコラボレーションを促進する。
この透明性のある報告は、偏見、差別、プライバシー侵害を防ぎ、ポリシーの遵守を確保し、説明責任、安全性、パフォーマンス保証を提供するための標準のプラクティスとなる。
関連論文リスト
- Empirical Privacy Evaluations of Generative and Predictive Machine Learning Models -- A review and challenges for practice [0.3069335774032178]
生成技術を展開する前に、生成した合成データに関連するプライバシーリスクを実証的に評価することが重要である。
本稿では,機械学習に基づく生成および予測モデルにおける経験的プライバシ評価の基礎となる概念と前提について概説する。
論文 参考訳(メタデータ) (2024-11-19T12:19:28Z) - Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - Advancing Retail Data Science: Comprehensive Evaluation of Synthetic Data [13.139215811928931]
本稿では, 総合的な小売データ評価フレームワークを導入し, 忠実度, 実用性, プライバシに着目した。
提案手法は連続データ属性と離散データ属性を区別し,正確な評価基準を提供する。
以上の結果から,このフレームワークが総合小売データに対して信頼性およびスケーラブルな評価を提供することが明らかとなった。
論文 参考訳(メタデータ) (2024-06-19T00:47:38Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - A Privacy-Preserving and Trustable Multi-agent Learning Framework [34.28936739262812]
本稿では,プライバシ保護と信頼性のある分散学習(PT-DL)を提案する。
PT-DLは、エージェントのデータに対する強力なプライバシ保護を保証するために、差分プライバシに依存する、完全に分散化されたフレームワークである。
本論文は,PT-DLが50%の衝突攻撃に対して,悪意のある信頼モデルで高い確率で回復可能であることを示す。
論文 参考訳(メタデータ) (2021-06-02T15:46:27Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Trustworthy Transparency by Design [57.67333075002697]
本稿では,ユーザ信頼とエクスペリエンスに関する研究を取り入れた,ソフトウェア設計のための透明性フレームワークを提案する。
私たちのフレームワークは、その設計に透明性を取り入れたソフトウェアの開発を可能にします。
論文 参考訳(メタデータ) (2021-03-19T12:34:01Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - Really Useful Synthetic Data -- A Framework to Evaluate the Quality of
Differentially Private Synthetic Data [2.538209532048867]
プライバシ保護の原則を付加する合成データ生成の最近の進歩は、プライバシ保護の方法で統計情報を共有するための重要なステップである。
データプライバシとデータ品質のトレードオフを最適化するためには、後者について詳しく考える必要があります。
本研究では,応用研究者の視点から,差分的にプライベートな合成データの質を評価する枠組みを開発する。
論文 参考訳(メタデータ) (2020-04-16T16:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。