Fugu-MT 論文翻訳(概要): Continual Release of Differentially Private Synthetic Data

論文の概要: Continual Release of Differentially Private Synthetic Data

arxiv url: http://arxiv.org/abs/2306.07884v1
Date: Tue, 13 Jun 2023 16:22:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-14 12:54:20.655107
Title: Continual Release of Differentially Private Synthetic Data
Title（参考訳）: 微分プライベート合成データの連続的リリース
Authors: Mark Bun, Marco Gaboardi, Marcel Neunhoeffer, Wanrong Zhang
Abstract要約: 微分プライベートな合成データを連続的にリリースする問題について検討する。各ステップごとに、各ステップが新しいデータ要素をレポートするモデルを導入します。本稿では,2種類のクエリを連続的に保存する合成データ生成アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 31.37064398694776
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Motivated by privacy concerns in long-term longitudinal studies in medical and social science research, we study the problem of continually releasing differentially private synthetic data. We introduce a model where, in every time step, each individual reports a new data element, and the goal of the synthesizer is to incrementally update a synthetic dataset to capture a rich class of statistical properties. We give continual synthetic data generation algorithms that preserve two basic types of queries: fixed time window queries and cumulative time queries. We show nearly tight upper bounds on the error rates of these algorithms and demonstrate their empirical performance on realistically sized datasets from the U.S. Census Bureau's Survey of Income and Program Participation.
Abstract（参考訳）: 医学・社会科学研究における長期的縦断的研究におけるプライバシーの懸念に動機付けられ, 差分的プライベートな合成データを継続的にリリースする問題について検討した。我々は,各段階において,各段階ごとに新しいデータ要素を報告し,合成器の目標は,合成データセットを漸進的に更新して,リッチな統計特性をキャプチャするモデルを導入する。固定時間ウィンドウクエリと累積時間クエリの2つの基本型を格納する連続合成データ生成アルゴリズムを提供する。我々は,これらのアルゴリズムの誤差率についてほぼ上限を示し,米国国勢調査局の所得調査およびプログラム参加調査から得られた,現実的なサイズのデータセットにおけるその経験的性能を実証する。

関連論文リスト

Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。合成データがモデル一般化をどのように改善するかを批判的に検討する。本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文参考訳（メタデータ） (2025-09-07T19:28:52Z)
SynDelay: A Synthetic Dataset for Delivery Delay Prediction [50.56729406793283]
配送遅延予測のための合成データセットであるSynDelayを提案する。これはサプライチェーンAIにおけるデータセットの共有とベンチマークを促進するオープンイニシアチブである。
論文参考訳（メタデータ） (2025-08-30T21:54:37Z)
TimeGraph: Synthetic Benchmark Datasets for Robust Time-Series Causal Discovery [4.07304559469381]
合成時系列ベンチマークデータセットの総合的なスイートであるTimeGraphを紹介する。各データセットには、様々な密度と多様なノイズ分布を特徴とする、完全に定義された因果グラフが付属する。我々は、最先端因果探索アルゴリズムの体系的評価を通じて、TimeGraphの有用性を実証する。
論文参考訳（メタデータ） (2025-06-02T06:34:11Z)
Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文参考訳（メタデータ） (2024-11-24T04:56:45Z)
Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文参考訳（メタデータ） (2024-11-04T09:51:10Z)
Are Synthetic Time-series Data Really not as Good as Real Data? [29.852306720544224]
時系列データは、データ品質の問題、バイアスと脆弱性、一般化の問題に起因する制限を提示する。 InfoBoostは、時系列表現学習機能を備えた、高度に汎用的なクロスドメインデータ合成フレームワークである。本研究では,実データを用いて学習したモデルの性能を上回りながら,実データを必要としないモデルトレーニングを可能にする合成データに基づく手法を開発した。
論文参考訳（メタデータ） (2024-02-01T13:59:04Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Differentially Private Synthetic Data Using KD-Trees [11.96971298978997]
ノイズ摂動とともに空間分割技術を活用し,直観的かつ透過的なアルゴリズムを実現する。我々は、$epsilon$-differentially private synthesis data generationのためのデータ独立アルゴリズムとデータ依存アルゴリズムの両方を提案する。先行研究に対して実証的な実用性向上を示すとともに,実データセット上の下流分類タスクにおけるアルゴリズムの性能について考察する。
論文参考訳（メタデータ） (2023-06-19T17:08:32Z)
TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文参考訳（メタデータ） (2023-05-19T10:11:21Z)
Synthetic data generation for a longitudinal cohort study -- Evaluation, method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。有望な代替手段は、完全な合成データの生成である。本研究では,最先端の合成データ生成手法を用いる。
論文参考訳（メタデータ） (2023-05-12T13:13:55Z)
Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文参考訳（メタデータ） (2023-04-07T16:38:40Z)
Grouped self-attention mechanism for a memory-efficient Transformer [64.0125322353281]
天気予報、電力消費、株式市場などの現実世界のタスクには、時間とともに変化するデータの予測が含まれる。時系列データは通常、その周期的特性と時間的長期依存性のために、長いシーケンスで長い観察期間にわたって記録される。我々はGSA(Grouped Self-Attention)とCCA(Compressed Cross-Attention)の2つの新しいモジュールを提案する。提案モデルでは,既存の手法に匹敵する計算量と性能の低減が効果的に示された。
論文参考訳（メタデータ） (2022-10-02T06:58:49Z)
Private Synthetic Data with Hierarchical Structure [33.72123440111452]
本研究では,個々のデータポイントがグループ化される階層的データセットに対する差分プライベートな合成データ生成の問題について検討する。特に、合成データセットと基礎となるプライベートデータセットの類似性を測定するために、プライベートクエリリリースの問題の下で、私たちの目標を設定します。階層型クエリリリースのためのプライベートな合成データアルゴリズムを導入し、階層型データセット上で評価する。
論文参考訳（メタデータ） (2022-06-13T07:22:21Z)
Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文参考訳（メタデータ） (2020-07-23T15:50:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。