論文の概要: EPSVec: Efficient and Private Synthetic Data Generation via Dataset Vectors
- arxiv url: http://arxiv.org/abs/2602.21218v1
- Date: Sat, 31 Jan 2026 00:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.653687
- Title: EPSVec: Efficient and Private Synthetic Data Generation via Dataset Vectors
- Title(参考訳): EPSVec: データセットベクトルによる効率的かつプライベートな合成データ生成
- Authors: Amin Banayeeanzade, Qingchuan Yang, Deqing Fu, Spencer Hong, Erin Babinsky, Alfy Samuel, Anoop Kumar, Robin Jia, Sai Praneeth Karimireddy,
- Abstract要約: 既存のプライベートテキスト生成手法の軽量な代替手段であるEPSVecを紹介する。
EPSVec は、プライベートデータと公開前の分散ギャップをキャプチャするアクティベーション空間における *dataset vectors*-direction を使用して、EPSVec のステアリングを行う。
実験の結果,EPSVecは分布アライメントおよび下流ユーティリティにおいて,既存のベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 28.30281053018808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality data is essential for modern machine learning, yet many valuable corpora are sensitive and cannot be freely shared. Synthetic data offers a practical substitute for downstream development, and large language models (LLMs) have emerged as powerful engines for generating it. However, existing private text generation methods are severely inefficient: they are data-intensive, computationally slow, and often require large private corpora or batch sizes to achieve usable quality. We introduce EPSVec, a differentially-private lightweight alternative that steers LLM generation using *dataset vectors*--directions in activation space that capture the distributional gap between private data and public priors. EPSVec extracts and sanitizes steering vectors just once and then performs standard decoding. This decouples the privacy budget from generation, enabling arbitrarily many synthetic samples without additional privacy cost and yielding strong fidelity even in low-data regimes. Furthermore, we enhance our method by utilizing pretrained (base) models and introducing fixed-shot prompting to boost generation diversity and fidelity. Our experiments demonstrate that EPSVec outperforms existing baselines in distributional alignment and downstream utility, particularly in low-data regimes, while significantly reducing computational overhead.
- Abstract(参考訳): 高品質なデータは現代の機械学習には不可欠だが、多くの貴重なコーパスは敏感であり、自由に共有することはできない。
合成データは下流開発に実用的な代用を提供し、大規模言語モデル(LLM)はそれを生成する強力なエンジンとして登場した。
しかし、既存のプライベートテキスト生成方法は、データ集約的で、計算が遅く、使用可能な品質を達成するために大きなプライベートコーパスやバッチサイズを必要とすることが多いため、非常に非効率である。
EPSVecは,個人データと公的な先行データ間の分散ギャップを捉えた活性化空間における *dataset vectors*-directions を用いて LLM 生成を操る,微分プライベートな軽量な代替手段である。
EPSVecは一度だけステアリングベクターを抽出して衛生化し、次に標準デコードを実行する。
これにより、プライバシ予算が生成から切り離され、追加のプライバシコストを伴わずに任意の数の合成サンプルが可能になり、低データ体制においても強い忠実性が得られる。
さらに,事前訓練された(ベース)モデルを利用して,生成の多様性と忠実度を高めるために固定ショットプロンプトを導入することにより,提案手法を強化した。
実験の結果,EPSVecは分散アライメントや下流ユーティリティにおいて既存のベースラインよりも優れており,計算オーバーヘッドを著しく低減していることがわかった。
関連論文リスト
- Utility-Diversity Aware Online Batch Selection for LLM Supervised Fine-tuning [49.04912820721943]
Supervised Fine-tuning (SFT) は計算コストが高く、時にはオーバーフィットやバイアス増幅に悩まされる。
本研究は、トレーニングプロセス中にサンプルを動的にスコア付け、フィルタリングするオンラインバッチ選択ファミリについて研究する。
SFTにおける効率的なオンラインバッチ選択のためのフレームワークである textbfUDS (Utility-Diversity Sampling) を開発した。
論文 参考訳(メタデータ) (2025-10-19T15:32:01Z) - Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-05T08:58:35Z) - Synthetic Data Generation and Differential Privacy using Tensor Networks' Matrix Product States (MPS) [33.032422801043495]
マトリックス製品状態(MPS)を用いたプライバシー保護のための高品質な合成データ生成手法を提案する。
我々は,MPSベースの生成モデルをCTGAN,VAE,PrivBayesといった最先端モデルと比較した。
以上の結果から,MPSは特に厳格なプライバシー制約の下で,従来のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-08-08T12:14:57Z) - Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。
CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文 参考訳(メタデータ) (2025-08-03T13:15:52Z) - A Distributed Generative AI Approach for Heterogeneous Multi-Domain Environments under Data Sharing constraints [0.6943041855623096]
本稿では,分散GANトレーニングのための新しいアプローチを提案する。
分散データの利用と、未使用の低機能デバイスの利用を可能にすると同時に、データの生の形式での共有も行なわない。
当社のアプローチは、分散環境における重要な課題に取り組むために設計されています。
論文 参考訳(メタデータ) (2025-07-17T10:31:31Z) - Embedding-Based Federated Data Sharing via Differentially Private Conditional VAEs [0.13108652488669734]
フェデレートラーニング(FL)は、分散トレーニングを可能にするが、高いコミュニケーションコストに悩まされる。
差分的プライベート(DP)生成モデルを用いたデータ共有手法を提案する。
クライアントは、グローバルでプライバシを意識したデータ配布をモデル化するために、差分的にプライベートな条件変分自動エンコーダ(DP-CVAE)を共同でトレーニングする。
論文 参考訳(メタデータ) (2025-07-03T14:36:15Z) - Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - Differentially-Private Data Synthetisation for Efficient Re-Identification Risk Control [3.8811062755861956]
$epsilon$-PrivateSMOTEは、再識別とリンケージ攻撃を防ぐためのテクニックである。
提案手法は,ノイズに起因した逆数による合成データ生成と,高リスクケースを難読化するための差分プライバシー原則を組み合わせたものである。
論文 参考訳(メタデータ) (2022-12-01T13:20:37Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。