Fugu-MT 論文翻訳(概要): Joint Selection: Adaptively Incorporating Public Information for Private Synthetic Data

論文の概要: Joint Selection: Adaptively Incorporating Public Information for Private Synthetic Data

arxiv url: http://arxiv.org/abs/2403.07797v1
Date: Tue, 12 Mar 2024 16:34:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 20:56:42.025640
Title: Joint Selection: Adaptively Incorporating Public Information for Private Synthetic Data
Title（参考訳）: 共同選択:プライベート合成データのための公開情報を適応的に取り入れる
Authors: Miguel Fuentes, Brett Mullins, Ryan McKenna, Gerome Miklau, Daniel Sheldon
Abstract要約: 我々は,適応測定フレームワークを拡張して,公開データとプライベートデータとを協調的に選択する機構であるjam-pgmを開発した。また, ジャム-pgmは, 公用データ分布に偏りがある場合でも, 公用データと非公用データ生成機構の両方より優れていることを示す。
参考スコア（独自算出の注目度）: 13.56146208014469
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mechanisms for generating differentially private synthetic data based on marginals and graphical models have been successful in a wide range of settings. However, one limitation of these methods is their inability to incorporate public data. Initializing a data generating model by pre-training on public data has shown to improve the quality of synthetic data, but this technique is not applicable when model structure is not determined a priori. We develop the mechanism jam-pgm, which expands the adaptive measurements framework to jointly select between measuring public data and private data. This technique allows for public data to be included in a graphical-model-based mechanism. We show that jam-pgm is able to outperform both publicly assisted and non publicly assisted synthetic data generation mechanisms even when the public data distribution is biased.
Abstract（参考訳）: 限界モデルとグラフィカルモデルに基づく微分プライベートな合成データを生成するメカニズムは、幅広い環境で成功している。しかし、これらの方法の1つの制限は、パブリックデータを組み込めないことである。公開データによる事前学習によるデータ生成モデルの初期化は, 合成データの質を向上させることが示されているが, この手法は, モデル構造が事前決定されていない場合に適用できない。公開データとプライベートデータとを共同で選択するために,適応測定フレームワークを拡張したjam-pgm機構を開発した。この技術は、グラフィカルモデルに基づくメカニズムに公開データを含めることができる。また, ジャム-pgmは, 公用データ分布に偏りがある場合でも, 公用データと非公用データ生成機構の両方より優れていることを示す。

関連論文リスト

Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。 CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文参考訳（メタデータ） (2025-08-03T13:15:52Z)
Do You Really Need Public Data? Surrogate Public Data for Differential Privacy on Tabular Data [10.1687640711587]
これは、プライバシ損失の予算を消費せず、公開スキーマやメタデータからのみ構築される。大規模言語モデル(LLM)を用いたサロゲート公開データ生成プロセスを自動化する。特に,CSVファイルとして直接レコード生成を行う方法と,サンプリングのための自動構造因果モデル(SCM)の構築を提案する。
論文参考訳（メタデータ） (2025-04-19T17:55:10Z)
Leveraging Vertical Public-Private Split for Improved Synthetic Data Generation [9.819636361032256]
Differentially Private Synthetic Data Generationは、プライベートおよびセキュアなデータ共有を可能にする重要な手段である。最近の文献では、少量の公開データが合成データの質を高めるのに役立つシナリオを探求している。本稿では,水平的公共支援手法を垂直配置に適応させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-04-15T08:59:03Z)
Synthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs [20.774525687291167]
そこで本稿では,広範囲なプロンプトエンジニアリングや数十億規模の微調整を伴わずに,プライバシ保護型合成データを生成する新しいフレームワークを提案する。 CTCLは、大規模公開データ上で、軽量な140M条件生成器とクラスタリングベースのトピックモデルを事前訓練する。さらにプライベートドメインに適応するために、トピックモデルがDPヒストグラムを抽出する間、作成したジェネレータは、詳細なテキスト情報のためにプライベートデータに対してDP微調整される。
論文参考訳（メタデータ） (2025-03-16T04:00:32Z)
Differentially Private Random Feature Model [52.468511541184895]
プライバシを保存するカーネルマシンに対して,差分的にプライベートな特徴モデルを作成する。本手法は,プライバシを保護し,一般化誤差を導出する。
論文参考訳（メタデータ） (2024-12-06T05:31:08Z)
Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。 SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文参考訳（メタデータ） (2024-10-24T10:47:30Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Membership Inference Attacks against Synthetic Data through Overfitting Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文参考訳（メタデータ） (2023-02-24T11:27:39Z)
PreFair: Privately Generating Justifiably Fair Synthetic Data [17.037575948075215]
PreFairは、差分プライバシー(DP)公正な合成データ生成を可能にするシステムである。我々は、合成データ生成シナリオに適合する正当性の概念に適応する。
論文参考訳（メタデータ） (2022-12-20T15:01:54Z)
Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2022-11-07T10:02:55Z)
Bias Mitigated Learning from Differentially Private Synthetic Data: A Cautionary Tale [13.881022208028751]
バイアスは、合成データ分布が実データ分布の不整合推定であるため、すべての解析に影響を与える可能性がある。民営化確率比を用いた複数のバイアス緩和戦略を提案する。バイアス緩和は、合成データの一般的な応用に、シンプルで効果的なプライバシー準拠の強化をもたらすことを示す。
論文参考訳（メタデータ） (2021-08-24T19:56:44Z)
An Analysis of the Deployment of Models Trained on Private Tabular Synthetic Data: Unexpected Surprises [4.129847064263057]
異なるプライベート(DP)合成データセットは、機械学習モデルをトレーニングするための強力なアプローチである。差分プライベートな合成データ生成が分類に与える影響について検討する。
論文参考訳（メタデータ） (2021-06-15T21:00:57Z)
Causally Constrained Data Synthesis for Private Data Release [36.80484740314504]
原データの特定の統計特性を反映した合成データを使用することで、原データのプライバシーが保護される。以前の作業では、正式なプライバシ保証を提供するために、差分プライベートなデータリリースメカニズムを使用していました。トレーニングプロセスに因果情報を導入し、上記のトレードオフを好意的に修正することを提案する。
論文参考訳（メタデータ） (2021-05-27T13:46:57Z)
Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。私たちはuci成人国勢調査データセットの代表者および公正版を作成します。我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文参考訳（メタデータ） (2021-04-07T09:19:46Z)
Incorporating Causal Graphical Prior Knowledge into Predictive Modeling via Simple Data Augmentation [92.96204497841032]
因果グラフ(CG)は、データ分散の背後にあるデータ生成プロセスの知識のコンパクトな表現である。本研究では,条件付き独立性(CI)関係の事前知識を活用可能なモデルに依存しないデータ拡張手法を提案する。本手法は,小データシステムにおける予測精度の向上に有効であることを実験的に示した。
論文参考訳（メタデータ） (2021-02-27T06:13:59Z)
Differentially Private Synthetic Medical Data Generation using Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文参考訳（メタデータ） (2020-12-22T01:03:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。