論文の概要: Measuring Privacy Risks and Tradeoffs in Financial Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2602.09288v1
- Date: Tue, 10 Feb 2026 00:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.289318
- Title: Measuring Privacy Risks and Tradeoffs in Financial Synthetic Data Generation
- Title(参考訳): 金融合成データ生成におけるプライバシーリスクとトレードオフの測定
- Authors: Michael Zuo, Inwon Kang, Stacy Patterson, Oshani Seneviratne,
- Abstract要約: 我々は、合成データ生成方式と金融データセットのプライバシとのトレードオフを考察する。
GANとオートエンコーダシンセサイザーの新しいプライバシ保護実装を提供する。
その結果,重度のクラス不均衡と混合型属性を示すデータセットから合成データを生成する上での課題について考察した。
- 参考スコア(独自算出の注目度): 6.043442867001894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the privacy-utility tradeoff of synthetic data generation schemes on tabular financial datasets, a domain characterized by high regulatory risk and severe class imbalance. We consider representative tabular data generators, including autoencoders, generative adversarial networks, diffusion, and copula synthesizers. To address the challenges of the financial domain, we provide novel privacy-preserving implementations of GAN and autoencoder synthesizers. We evaluate whether and how well the generators simultaneously achieve data quality, downstream utility, and privacy, with comparison across balanced and imbalanced input datasets. Our results offer insight into the distinct challenges of generating synthetic data from datasets that exhibit severe class imbalance and mixed-type attributes.
- Abstract(参考訳): 我々は,高規制リスクと厳密なクラス不均衡を特徴とする,表型金融データセット上での合成データ生成方式のプライバシユーティリティトレードオフについて検討する。
本稿では,自動エンコーダ,生成する対向ネットワーク,拡散,コプラ合成器などの表表データ生成装置について検討する。
金融分野の課題に対処するため、GANとオートエンコーダシンセサイザーの新たなプライバシ保護実装を提供する。
データ品質、ダウンストリームユーティリティ、プライバシを、バランスの取れた入力データセットと不均衡な入力データセットで比較して、ジェネレータがどの程度データ品質、ダウンストリームユーティリティ、およびプライバシを同時に達成できるかを評価した。
以上の結果から,重度のクラス不均衡と混合型属性を示すデータセットから合成データを生成する上での課題について考察した。
関連論文リスト
- A Sustainable AI Economy Needs Data Deals That Work for Generators [56.949279542190084]
機械学習のバリューチェーンは、経済的なデータ処理の不平等のため、構造的に持続不可能である、と我々は主張する。
73の公開データ取引を分析し、アグリゲータに価値の大部分が蓄積されていることを示す。
参加者全員に利益をもたらす最小市場を実現するために、等価なData-Value Exchange Frameworkを提案する。
論文 参考訳(メタデータ) (2026-01-15T01:05:48Z) - Quality Degradation Attack in Synthetic Data [5.461072909384133]
本研究では,実際のデータセットへのアクセスや生成プロセスの制御を行う敵による品質攻撃について検討する。
我々は、対応する脅威モデルを形式化し、実データのターゲット操作の有効性を実証的に評価する。
論文 参考訳(メタデータ) (2026-01-06T11:43:31Z) - New Money: A Systematic Review of Synthetic Data Generation for Finance [0.0874967598360817]
合成データ生成は、機械学習アプリケーションでセンシティブな財務データを使用する際の課題に対処するための、有望なアプローチである。
プライバシのリスクと規制の制約を緩和しながら、実際の財務記録の統計特性を保存する人工データセットを作成することができる。
この体系的なレビューは、合成財務データ生成に焦点を当てた2018年以降に発表された72の研究を統合し、分析する。
論文 参考訳(メタデータ) (2025-10-30T02:21:59Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Decentralised, Scalable and Privacy-Preserving Synthetic Data Generation [8.982917734231165]
我々は、リアルデータのコントリビュータが、微分プライベートな合成データ生成に自律的に参加できる新しいシステムを構築します。
私たちのソリューションは、Solid(Social Linked Data)、MPC(Secure Multi-Party Computation)、Trusted Execution Environments(TEEs)という3つのビルディングブロックに基づいています。
これらの3つの技術が、責任と信頼性のある合成データ生成における様々な課題に効果的に対処できることを示します。
論文 参考訳(メタデータ) (2023-10-30T22:27:32Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data [7.370727048591523]
関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-13T20:09:17Z) - Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic
Data [0.0]
aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重するデータ共有を可能にするという約束がますます認識されている。
我々は,合成データソリューションの信頼性とプライバシリスクを定量化するための,ホールドアウトに基づく実証的評価フレームワークを紹介し,実証する。
論文 参考訳(メタデータ) (2021-04-01T17:30:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。