論文の概要: The challenge of generating and evolving real-life like synthetic test data without accessing real-world raw data -- a Systematic Review
- arxiv url: http://arxiv.org/abs/2602.06609v1
- Date: Fri, 06 Feb 2026 11:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.369452
- Title: The challenge of generating and evolving real-life like synthetic test data without accessing real-world raw data -- a Systematic Review
- Title(参考訳): 実世界の生データにアクセスせずに合成テストデータのような実生活を生成・進化させる課題 -- Systematic Review
- Authors: Maj-Annika Tammisto, Faiz Ali Shah, Daniel Rodriguez, Dietmar Pfahl,
- Abstract要約: e-Governmentサービスからのデータを使用するアプリケーションの高レベルのシステムテストでは、実生活に似たテストデータが必要ですが、個人情報のプライバシが保証されています。
本稿は、この領域における現状を総合することを目的としている。
- 参考スコア(独自算出の注目度): 0.9299449012944211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: High-level system testing of applications that use data from e-Government services as input requires test data that is real-life-like but where the privacy of personal information is guaranteed. Applications with such strong requirement include information exchange between countries, medicine, banking, etc. This review aims to synthesize the current state-of-the-practice in this domain. Objectives: The objective of this Systematic Review is to identify existing approaches for creating and evolving synthetic test data without using real-life raw data. Methods: We followed well-known methodologies for conducting systematic literature reviews, including the ones from Kitchenham as well as guidelines for analysing the limitations of our review and its threats to validity. Results: A variety of methods and tools exist for creating privacy-preserving test data. Our search found 1,013 publications in IEEE Xplore, ACM Digital Library, and SCOPUS. We extracted data from 75 of those publications and identified 37 approaches that answer our research question partly. A common prerequisite for using these methods and tools is direct access to real-life data for data anonymization or synthetic test data generation. Nine existing synthetic test data generation approaches were identified that were closest to answering our research question. Nevertheless, further work would be needed to add the ability to evolve synthetic test data to the existing approaches. Conclusions: None of the publications really covered our requirements completely, only partially. Synthetic test data evolution is a field that has not received much attention from researchers but needs to be explored in Digital Government Solutions, especially since new legal regulations are being placed in force in many countries.
- Abstract(参考訳): 背景: 入力としてe-Governmentサービスからのデータを使用するアプリケーションの高レベルのシステムテストには、実生活のようなテストデータが必要ですが、個人情報のプライバシが保証されています。
このような強い要件を持つアプリケーションには、国間の情報交換、医療、銀行などが含まれる。
本稿は、この領域における現状を総合することを目的としている。
目的: 本システムレビューの目的は、実生活の生データを使わずに、合成テストデータを作成し、進化させる既存のアプローチを特定することである。
方法: キッシェナムの文献レビューの実施方法, レビューの限界と有効性に対する脅威を分析するためのガイドラインなど, 体系的な文献レビューの実施方法としてよく知られた手法を踏襲した。
結果: プライバシ保護テストデータを作成するためのさまざまな方法とツールが存在する。
調査の結果、IEEE Xplore、ACM Digital Library、SCOPUSで1,013の論文が見つかった。
それらの出版物75件のデータを抽出し,研究課題の一部に答える37のアプローチを特定した。
これらの手法やツールを使用するための一般的な前提条件は、データ匿名化や合成テストデータ生成のための実生活データに直接アクセスすることである。
既存の9つの総合的テストデータ生成手法を同定し,本研究の回答に最も近い結果を得た。
それでも、既存のアプローチに合成テストデータを進化させる能力を追加するためには、さらなる作業が必要である。
結論: どの出版物も我々の要求を完全にカバーしてはいません。
合成テストデータの進化は、研究者からはあまり注目されていないが、特に多くの国で新しい法規制が施行されているため、デジタル政府ソリューションで調査する必要がある分野である。
関連論文リスト
- How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - Methods for generating and evaluating synthetic longitudinal patient data: a systematic review [0.0]
データ可用性の急激な成長は、研究と開発を促進するが、法律とプライバシーの制約により、すべての産業が平等に利益を得ているわけではない。
医療セクターは、データセキュリティと機密性に関する懸念から、患者データの利用において重大な課題に直面している。
これを解決するために、合成データ生成を含む様々なプライバシ保護手法が提案されている。
論文 参考訳(メタデータ) (2023-09-21T12:44:31Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - Yes-Yes-Yes: Donation-based Peer Reviewing Data Collection for ACL
Rolling Review and Beyond [58.71736531356398]
本稿では、ピアレビューデータについて詳細な議論を行い、ピアレビューデータ収集のための倫理的・法的デシダータの概要を述べるとともに、最初の継続的な寄付ベースのデータ収集ワークフローを提案する。
本稿では、ACL Rolling Reviewにおいて、このワークフローの現在進行中の実装について報告し、新たに収集したデータから得られた最初の洞察を提供する。
論文 参考訳(メタデータ) (2022-01-27T11:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。