論文の概要: Two-Stage Data Synthesization: A Statistics-Driven Restricted Trade-off between Privacy and Prediction
- arxiv url: http://arxiv.org/abs/2602.08657v1
- Date: Mon, 09 Feb 2026 13:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.253569
- Title: Two-Stage Data Synthesization: A Statistics-Driven Restricted Trade-off between Privacy and Prediction
- Title(参考訳): 2段階データ合成:プライバシと予測の間の統計駆動による制限付きトレードオフ
- Authors: Xiaotong Liu, Shao-Bo Lin, Jun Fan, Ding-Xuan Zhou,
- Abstract要約: 合成データの2段階合成戦略を提案する。
第1段階では、合成操作を伴って純粋な合成データを生成する合成-then-hybrid戦略を導入する。
第2段階では、カーネルリッジ回帰(KRR)に基づく合成戦略を示し、KRRモデルが最初に元のデータに基づいて訓練され、次に合成出力を生成する。
- 参考スコア(独自算出の注目度): 22.585086710145756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data have gained increasing attention across various domains, with a growing emphasis on their performance in downstream prediction tasks. However, most existing synthesis strategies focus on maintaining statistical information. Although some studies address prediction performance guarantees, their single-stage synthesis designs make it challenging to balance the privacy requirements that necessitate significant perturbations and the prediction performance that is sensitive to such perturbations. We propose a two-stage synthesis strategy. In the first stage, we introduce a synthesis-then-hybrid strategy, which involves a synthesis operation to generate pure synthetic data, followed by a hybrid operation that fuses the synthetic data with the original data. In the second stage, we present a kernel ridge regression (KRR)-based synthesis strategy, where a KRR model is first trained on the original data and then used to generate synthetic outputs based on the synthetic inputs produced in the first stage. By leveraging the theoretical strengths of KRR and the covariant distribution retention achieved in the first stage, our proposed two-stage synthesis strategy enables a statistics-driven restricted privacy--prediction trade-off and guarantee optimal prediction performance. We validate our approach and demonstrate its characteristics of being statistics-driven and restricted in achieving the privacy--prediction trade-off both theoretically and numerically. Additionally, we showcase its generalizability through applications to a marketing problem and five real-world datasets.
- Abstract(参考訳): 合成データは、下流予測タスクのパフォーマンスに重点を置いて、さまざまな領域で注目を集めている。
しかし、既存のほとんどの合成戦略は統計情報の維持に重点を置いている。
予測性能保証に対処する研究もあるが、その単一ステージ合成設計は、重大な摂動を必要とするプライバシー要件と、そのような摂動に敏感な予測性能のバランスをとるのが困難である。
本稿では,2段階合成戦略を提案する。
第1段階では,合成データを生成するための合成操作と,合成データを元のデータと融合するハイブリッド操作を含む合成-合成-ハイブリッド戦略を導入する。
第2段階では、カーネルリッジ回帰(KRR)に基づく合成戦略を示し、KRRモデルを元のデータに基づいて訓練し、第1段階で生成された合成入力に基づいて合成出力を生成する。
提案手法は,KRRの理論的強みと,第1段階で達成された共変分布保持を生かして,統計的に制限されたプライバシ-予測トレードオフを実現し,最適予測性能を保証できる2段階合成戦略である。
我々は,我々のアプローチを検証し,理論上も数値上も,プライバシー上のトレードオフを達成する上で統計駆動であり,制限されている特性を実証する。
さらに,マーケティング問題と実世界の5つのデータセットへの応用を通して,その一般化可能性を示す。
関連論文リスト
- Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Conditional Data Synthesis Augmentation [4.3108820946281945]
Conditional Data Synthesis Augmentation (CoDSA)は、マルチモーダルドメイン間のモデルパフォーマンスを改善するために高忠実度データを合成する新しいフレームワークである。
合成データの現実性を高め,スパース領域の試料密度を高めるために,CoDSAファインチューン事前学習生成モデルを構築した。
本稿では,合成サンプル量と対象領域割り当ての関数として,CoDSAが実現した統計的精度向上を定量化する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-10T03:38:11Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Synthetic Data Generation with LLM for Improved Depression Prediction [5.508617844957542]
本研究では, 抑うつ予測モデルの性能向上のために, 合成データを生成するための大規模言語モデルのためのパイプラインを提案する。
データの完全性とプライバシ保護の指標が満足できるだけでなく、トレーニングデータセットの重大度分布のバランスも取れた。
論文 参考訳(メタデータ) (2024-11-26T18:31:14Z) - Enhancing Indoor Temperature Forecasting through Synthetic Data in Low-Data Environments [42.8983261737774]
合成データ生成のためのSoTA AI を用いたデータ拡張手法の有効性について検討する。
そこで本研究では,実データと合成データの融合戦略を探求し,予測モデルの改善を図る。
論文 参考訳(メタデータ) (2024-06-07T12:36:31Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Bias Mitigated Learning from Differentially Private Synthetic Data: A
Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。
民営化確率比を用いた複数のバイアス緩和戦略を提案する。
バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T19:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。