論文の概要: New Money: A Systematic Review of Synthetic Data Generation for Finance
- arxiv url: http://arxiv.org/abs/2510.26076v1
- Date: Thu, 30 Oct 2025 02:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.630486
- Title: New Money: A Systematic Review of Synthetic Data Generation for Finance
- Title(参考訳): 新しいお金:金融のための合成データ生成の体系的レビュー
- Authors: James Meldrum, Basem Suleiman, Fethi Rabhi, Muhammad Johan Alibasa,
- Abstract要約: 合成データ生成は、機械学習アプリケーションでセンシティブな財務データを使用する際の課題に対処するための、有望なアプローチである。
プライバシのリスクと規制の制約を緩和しながら、実際の財務記録の統計特性を保存する人工データセットを作成することができる。
この体系的なレビューは、合成財務データ生成に焦点を当てた2018年以降に発表された72の研究を統合し、分析する。
- 参考スコア(独自算出の注目度): 0.0874967598360817
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Synthetic data generation has emerged as a promising approach to address the challenges of using sensitive financial data in machine learning applications. By leveraging generative models, such as Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs), it is possible to create artificial datasets that preserve the statistical properties of real financial records while mitigating privacy risks and regulatory constraints. Despite the rapid growth of this field, a comprehensive synthesis of the current research landscape has been lacking. This systematic review consolidates and analyses 72 studies published since 2018 that focus on synthetic financial data generation. We categorise the types of financial information synthesised, the generative methods employed, and the evaluation strategies used to assess data utility and privacy. The findings indicate that GAN-based approaches dominate the literature, particularly for generating time-series market data and tabular credit data. While several innovative techniques demonstrate potential for improved realism and privacy preservation, there remains a notable lack of rigorous evaluation of privacy safeguards across studies. By providing an integrated overview of generative techniques, applications, and evaluation methods, this review highlights critical research gaps and offers guidance for future work aimed at developing robust, privacy-preserving synthetic data solutions for the financial domain.
- Abstract(参考訳): 機械学習アプリケーションでセンシティブな財務データを使用するという課題に対処するための、有望なアプローチとして、合成データ生成が登場した。
GAN(Generative Adversarial Networks)やVAE(variantal Autoencoders)といった生成モデルを活用することで、プライバシのリスクと規制の制約を緩和しつつ、実際の財務記録の統計特性を保存する人工データセットを作成することができる。
この分野の急速な成長にもかかわらず、現在の研究環境の総合的な合成は欠如している。
この体系的なレビューは、合成財務データ生成に焦点を当てた2018年以降に発表された72の研究を統合し、分析する。
我々は,データの有用性とプライバシを評価するための財務情報の種類,利用方法,および評価戦略を分類する。
この結果は,特に時系列市場データと表形式の信用データの生成において,GANベースのアプローチが文献の上位を占めることを示している。
いくつかの革新的な技術は、現実主義の改善とプライバシー保護の可能性を実証しているが、研究全体にわたるプライバシー保護に関する厳密な評価の欠如は注目すべきである。
本総説は, 生成技術, 応用, 評価手法の総合的な概要を提供することにより, 重要な研究ギャップを強調し, 金融分野の堅牢でプライバシーに配慮した合成データソリューション開発を目的とした今後の研究の指針を提供する。
関連論文リスト
- Synthetic Tabular Data Generation: A Comparative Survey for Modern Techniques [6.744437741221969]
プライバシー規制が厳しくなり、現実世界のデータへのアクセスが制限されるようになるにつれ、合成データ生成は重要なソリューションとして現れてきた。
このレビューでは、条件付き生成やリスクに敏感なモデリングを含む、合成データ生成を駆動する実行可能な目標を優先する。
論文 参考訳(メタデータ) (2025-07-15T14:57:23Z) - A Comprehensive Survey on Network Traffic Synthesis: From Statistical Models to Deep Learning [4.578307236651368]
合成ネットワークトラフィック生成は、ネットワーク領域における様々なデータ駆動アプリケーションのための有望な代替手段として登場した。
これは、データ不足、プライバシーの懸念、および実際のデータに関連する純粋性制約といった重要な課題に対処しながら、現実世界の特徴を保存する合成データの作成を可能にする。
この調査は、研究者や実践者の基盤資源として機能し、既存の手法、課題、および合成ネットワークトラフィック生成の機会に関する構造化された分析を提供する。
論文 参考訳(メタデータ) (2025-06-23T18:08:18Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Empirical Privacy Evaluations of Generative and Predictive Machine Learning Models -- A review and challenges for practice [0.3069335774032178]
生成技術を展開する前に、生成した合成データに関連するプライバシーリスクを実証的に評価することが重要である。
本稿では,機械学習に基づく生成および予測モデルにおける経験的プライバシ評価の基礎となる概念と前提について概説する。
論文 参考訳(メタデータ) (2024-11-19T12:19:28Z) - Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Machine Learning for Synthetic Data Generation: A Review [23.073056971997715]
本稿では,合成データの生成を目的とした機械学習モデルを用いた既存研究についてレビューする。
このレビューは、合成データ生成、コンピュータビジョン、スピーチ、自然言語処理、ヘルスケア、ビジネスドメインの応用から始まる様々な視点を網羅している。
この論文は、合成データ生成に関するプライバシーと公平性に関する重要な側面についても論じている。
論文 参考訳(メタデータ) (2023-02-08T13:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。