Fugu-MT 論文翻訳(概要): Practical considerations on using private sampling for synthetic data

論文の概要: Practical considerations on using private sampling for synthetic data

arxiv url: http://arxiv.org/abs/2312.07139v1
Date: Tue, 12 Dec 2023 10:20:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-18 12:26:52.802790
Title: Practical considerations on using private sampling for synthetic data
Title（参考訳）: 合成データにおけるプライベートサンプリングの実践的考察
Authors: Clément Pierquin, Bastien Zimmermann, Matthieu Boussard,
Abstract要約: 合成データ生成の異なるプライバシは、合成データを自由に使用しながらプライバシを保存する能力のために、多くの注目を集めている。プライベートサンプリングは、プライバシーと正確性のために厳密な境界を持つ微分プライベートな合成データを構築する最初のノイズフリー手法である。本稿では,プライベートサンプリングアルゴリズムの実装と,実例における制約の現実性について議論する。
参考スコア（独自算出の注目度）: 1.3654846342364308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial intelligence and data access are already mainstream. One of the main challenges when designing an artificial intelligence or disclosing content from a database is preserving the privacy of individuals who participate in the process. Differential privacy for synthetic data generation has received much attention due to the ability of preserving privacy while freely using the synthetic data. Private sampling is the first noise-free method to construct differentially private synthetic data with rigorous bounds for privacy and accuracy. However, this synthetic data generation method comes with constraints which seem unrealistic and not applicable for real-world datasets. In this paper, we provide an implementation of the private sampling algorithm and discuss the realism of its constraints in practical cases.
Abstract（参考訳）: 人工知能とデータアクセスはすでに主流だ。人工知能を設計したり、データベースからコンテンツを開示する際の大きな課題の1つは、プロセスに参加する個人のプライバシを保存することである。合成データ生成のための微分プライバシーは、合成データを自由に使用しながらプライバシを保存する能力のために、多くの注目を集めている。プライベートサンプリングは、プライバシーと正確性のために厳密な境界を持つ微分プライベートな合成データを構築する最初のノイズフリー手法である。しかし、この合成データ生成手法には、現実的なデータセットには適用できないような制約が伴っている。本稿では,プライベートサンプリングアルゴリズムの実装と,実例における制約の現実性について議論する。

関連論文リスト

Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。 CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文参考訳（メタデータ） (2025-08-03T13:15:52Z)
Differentially Private Synthetic Data Release for Topics API Outputs [63.79476766779742]
当社では,Google ChromeのPrivacy Sandboxの一部として,1つのPrivacy-Preserving Ads API – Topics APIに注目しています。実トピックAPIデータの再識別リスク特性と密に一致した、微分プライベートなデータセットを生成する。これにより、外部の研究者がAPIを詳細に分析し、現実的な大規模データセットの事前および将来の作業の再現が可能になります。
論文参考訳（メタデータ） (2025-06-30T13:46:57Z)
SMOTE-DP: Improving Privacy-Utility Tradeoff with Synthetic Data [13.699107354397286]
合成データ生成の適切なメカニズムにより、大きなユーティリティ損失を伴わずに、強力なプライバシ保護を実現することができることを示す。我々は,このSMOTE-DP技術が,堅牢なプライバシ保護を保証するだけでなく,下流学習タスクにおいて有効性を維持する合成データを生成することを理論的および実証的な実証を通じて証明した。
論文参考訳（メタデータ） (2025-06-02T17:27:10Z)
Leveraging Vertical Public-Private Split for Improved Synthetic Data Generation [9.819636361032256]
Differentially Private Synthetic Data Generationは、プライベートおよびセキュアなデータ共有を可能にする重要な手段である。最近の文献では、少量の公開データが合成データの質を高めるのに役立つシナリオを探求している。本稿では,水平的公共支援手法を垂直配置に適応させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-04-15T08:59:03Z)
Privacy-Preserving Fair Synthetic Tabular Data [1.492801861693149]
WGAN-GPモデルに基づくプライバシー保護・公正な合成データ生成装置であるPF-WGANを提案する。プライバシと公正性の制約を加えて、プライバシを保存する公正なデータを生成することで、元のWGAN-GPを修正しました。このアプローチにより、個人のプライバシを保護し、特定のグループに対してバイアスをかけないデータセットの公開が可能になる。
論文参考訳（メタデータ） (2025-03-04T19:51:00Z)
Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文参考訳（メタデータ） (2024-12-02T11:12:01Z)
Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文参考訳（メタデータ） (2024-11-04T06:32:48Z)
Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文参考訳（メタデータ） (2024-10-10T19:31:02Z)
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。 RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文参考訳（メタデータ） (2024-06-20T22:53:09Z)
FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。 FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文参考訳（メタデータ） (2024-03-10T08:41:22Z)
Scaling While Privacy Preserving: A Comprehensive Synthetic Tabular Data Generation and Evaluation in Learning Analytics [0.412484724941528]
プライバシーは学習分析(LA)の進歩に大きな障害となり、匿名化の不十分さやデータ誤用といった課題を提示している。合成データは潜在的な対策として現れ、堅牢なプライバシー保護を提供する。 LAの合成データに関する以前の研究では、プライバシーとデータユーティリティの微妙なバランスを評価するのに不可欠な、徹底的な評価が欠如していた。
論文参考訳（メタデータ） (2024-01-12T20:27:55Z)
A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文参考訳（メタデータ） (2023-09-27T14:38:16Z)
The Use of Synthetic Data to Train AI Models: Opportunities and Risks for Sustainable Development [0.6906005491572401]
本稿では,合成データの生成,利用,普及を規定する政策について検討する。優れた合成データポリシーは、プライバシの懸念とデータの有用性のバランスを取らなければならない。
論文参考訳（メタデータ） (2023-08-31T23:18:53Z)
Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文参考訳（メタデータ） (2023-04-07T16:38:40Z)
Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2022-11-07T10:02:55Z)
Synthetic Text Generation with Differential Privacy: A Simple and Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文参考訳（メタデータ） (2022-10-25T21:21:17Z)
Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。私たちはuci成人国勢調査データセットの代表者および公正版を作成します。我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文参考訳（メタデータ） (2021-04-07T09:19:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。