論文の概要: Rethinking Synthetic Data definitions: A privacy driven approach
- arxiv url: http://arxiv.org/abs/2503.03506v1
- Date: Wed, 05 Mar 2025 13:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 17:18:41.07245
- Title: Rethinking Synthetic Data definitions: A privacy driven approach
- Title(参考訳): シンセティックデータ定義の再考: プライバシ駆動アプローチ
- Authors: Vibeke Binz Vallevik, Serena Elizabeth Marshall, Aleksandar Babic, Jan Franz Nygaard,
- Abstract要約: 合成データは、AI開発におけるデータ要求の増加に対するコスト効率のよいソリューションである。
従来の合成データ型の分類は、新しい世代技術に合わない。
我々は、規制政策立案を支援するために、プライバシー評価をより良く支援する合成データタイプをグループ化する新しい方法を提案する。
- 参考スコア(独自算出の注目度): 42.12937192948916
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Synthetic data is gaining traction as a cost-effective solution for the increasing data demands of AI development and can be generated either from existing knowledge or derived data captured from real-world events. The source of the synthetic data generation and the technique used significantly impacts its residual privacy risk and therefore its opportunity for sharing. Traditional classification of synthetic data types no longer fit the newer generation techniques and there is a need to better align the classification with practical needs. We suggest a new way of grouping synthetic data types that better supports privacy evaluations to aid regulatory policymaking. Our novel classification provides flexibility to new advancements like deep generative methods and offers a more practical framework for future applications.
- Abstract(参考訳): 合成データは、AI開発におけるデータ要求の増加に対するコスト効率の高いソリューションとして注目を集めており、既存の知識から、または現実世界のイベントから取得した派生データから生成することができる。
合成データ生成の源泉とその技術は、その残余のプライバシーリスクと、それ故に共有の機会に大きな影響を及ぼす。
従来の合成データ型の分類は、もはや新しい世代技術に適合せず、その分類を実用的ニーズと整合させる必要がある。
我々は、規制政策立案を支援するために、プライバシー評価をより良く支援する合成データタイプをグループ化する新しい方法を提案する。
我々の新しい分類は、深層生成法のような新しい進歩に柔軟性を提供し、将来のアプリケーションにもっと実用的なフレームワークを提供する。
関連論文リスト
- A Survey on Tabular Data Generation: Utility, Alignment, Fidelity, Privacy, and Beyond [53.56796220109518]
異なるユースケースは、実際に有用な異なる要件を満たすために合成データを要求する。
合成データの実用性、合成データのドメイン固有の知識との整合性、実際のデータ分布と比較しての合成データ分布の統計的忠実度、プライバシ保護能力の4つの要件をレビューする。
今後の分野の方向性と、現在の評価方法を改善する機会について論じる。
論文 参考訳(メタデータ) (2025-03-07T21:47:11Z) - Automatic Prompt Optimization Techniques: Exploring the Potential for Synthetic Data Generation [0.0]
医療などの専門分野において、データ取得はプライバシー規制、倫理的配慮、可用性の制限による重大な制約に直面している。
大規模プロンプトベースモデルの出現は、保護されたデータに直接アクセスすることなく、合成データ生成の新しい機会を示す。
PRISMAガイドラインに従って, 自動プロンプト最適化の最近の展開を概観する。
論文 参考訳(メタデータ) (2025-02-05T11:13:03Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - An evaluation framework for synthetic data generation models [3.3748750222488657]
高品質な合成データを開発するための合成データ生成モデルの能力を評価するための新しいフレームワークを提案する。
2つのユースケースシナリオは、合成データ生成モデルが高品質なデータを生成する能力を評価するための提案フレームワークの適用性を示す。
論文 参考訳(メタデータ) (2024-04-13T01:16:45Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - The Use of Synthetic Data to Train AI Models: Opportunities and Risks
for Sustainable Development [0.6906005491572401]
本稿では,合成データの生成,利用,普及を規定する政策について検討する。
優れた合成データポリシーは、プライバシの懸念とデータの有用性のバランスを取らなければならない。
論文 参考訳(メタデータ) (2023-08-31T23:18:53Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。