論文の概要: Optimizing the Privacy-Utility Balance using Synthetic Data and Configurable Perturbation Pipelines
- arxiv url: http://arxiv.org/abs/2504.18596v1
- Date: Thu, 24 Apr 2025 15:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.903219
- Title: Optimizing the Privacy-Utility Balance using Synthetic Data and Configurable Perturbation Pipelines
- Title(参考訳): 合成データと構成可能な摂動パイプラインによるプライバシ-ユーティリティバランスの最適化
- Authors: Anantha Sharma, Swetha Devabhaktuni, Eklove Mohan,
- Abstract要約: 本稿では,セキュリティの向上,分析ユーティリティの維持,大規模データセット管理における運用効率の向上のために,現代合成データ生成と高度データ摂動技術の戦略的利用について検討する。
目標は、BFSI、ヘルスケア、リテール、通信といったデータに敏感な業界において重要なニーズである、複雑な機械学習タスクや分析に高いユーティリティを保持する、現実的なプライバシ保護データセットを作ることだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper explores the strategic use of modern synthetic data generation and advanced data perturbation techniques to enhance security, maintain analytical utility, and improve operational efficiency when managing large datasets, with a particular focus on the Banking, Financial Services, and Insurance (BFSI) sector. We contrast these advanced methods encompassing generative models like GANs, sophisticated context-aware PII transformation, configurable statistical perturbation, and differential privacy with traditional anonymization approaches. The goal is to create realistic, privacy-preserving datasets that retain high utility for complex machine learning tasks and analytics, a critical need in the data-sensitive industries like BFSI, Healthcare, Retail, and Telecommunications. We discuss how these modern techniques potentially offer significant improvements in balancing privacy preservation while maintaining data utility compared to older methods. Furthermore, we examine the potential for operational gains, such as reduced overhead and accelerated analytics, by using these privacy-enhanced datasets. We also explore key use cases where these methods can mitigate regulatory risks and enable scalable, data-driven innovation without compromising sensitive customer information.
- Abstract(参考訳): 本稿では,銀行,金融サービス,保険(BFSI, Banking, Financial Services, Insurance)分野を中心に,現代データ生成と高度データ摂動技術の戦略的利用を,セキュリティの向上,分析ユーティリティの維持,大規模データセット管理時の運用効率の向上のために検討する。
GANのような生成モデル、洗練された文脈認識型PII変換、構成可能な統計的摂動、および従来の匿名化アプローチによる差分プライバシーを含むこれらの高度な手法を対比する。
目標は、BFSI、ヘルスケア、リテール、通信といったデータに敏感な業界において重要なニーズである、複雑な機械学習タスクや分析に高いユーティリティを保持する、現実的なプライバシ保護データセットを作ることだ。
従来の手法と比較してデータユーティリティを維持しながらプライバシー保護のバランスを保ちながら、これらの最新技術が大きな改善をもたらす可能性について論じる。
さらに、これらのプライバシ強化データセットを用いて、オーバーヘッド削減や分析の高速化など、運用上の利益の可能性を検討する。
また、これらの手法が規制のリスクを軽減し、機密性の高い顧客情報を妥協することなく、スケーラブルでデータ駆動型イノベーションを可能にする重要なユースケースについても検討する。
関連論文リスト
- Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z) - Adaptive Clipping for Privacy-Preserving Few-Shot Learning: Enhancing Generalization with Limited Data [12.614480013684759]
そこで我々は,メタクリップ(Meta-Clip)と呼ばれる新しい手法を導入する。
トレーニング中にクリッピング閾値を動的に調整することにより、アダプティブクリッピング法は機密情報の開示をきめ細かな制御を可能にする。
我々は,既存プライバシ保存技術に比べて優れたトレードオフを示すとともに,実用上の劣化を最小限に抑えるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-27T05:14:18Z) - Differentially Private Federated Learning of Diffusion Models for Synthetic Tabular Data Generation [5.182014186927255]
DP-Fed-FinDiffフレームワークは、微分プライバシー、フェデレーションラーニング、拡散確率モデルの新たな統合である。
複数の実世界の財務データセットに対するDP-Fed-FinDiffの有効性を示す。
その結果、DP-Fed-FinDiffが、高度に規制されたドメインでセキュアなデータ共有とロバストな分析を可能にする可能性を確認した。
論文 参考訳(メタデータ) (2024-12-20T17:30:58Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Collection, usage and privacy of mobility data in the enterprise and public administrations [55.2480439325792]
個人のプライバシーを守るためには、匿名化などのセキュリティ対策が必要である。
本研究では,現場における実践の洞察を得るために,専門家によるインタビューを行った。
我々は、一般的には最先端の差分プライバシー基準に準拠しない、使用中のプライバシー強化手法を調査した。
論文 参考訳(メタデータ) (2024-07-04T08:29:27Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - MaSS: Multi-attribute Selective Suppression for Utility-preserving Data Transformation from an Information-theoretic Perspective [10.009178591853058]
本稿では,このユーティリティ保護プライバシ保護問題に対する情報理論の形式的定義を提案する。
我々は、ターゲットデータセットからセンシティブな属性を抑えることができるデータ駆動学習可能なデータ変換フレームワークを設計する。
その結果,様々な構成下での手法の有効性と一般化性を示した。
論文 参考訳(メタデータ) (2024-05-23T18:35:46Z) - Synergizing Privacy and Utility in Data Analytics Through Advanced Information Theorization [2.28438857884398]
本稿では,高次元画像データに適したノイズ注入技術,ロバストな特徴抽出のための変分オートエンコーダ(VAE),構造化データプライバシに最適化された期待最大化(EM)アプローチの3つの高度なアルゴリズムを紹介する。
本手法は,機密属性と変換データ間の相互情報を著しく低減し,プライバシーを向上する。
この研究は、さまざまなデータタイプにまたがってプライバシ保護アルゴリズムをデプロイするための柔軟で効果的な戦略を提供することによって、この分野に貢献する。
論文 参考訳(メタデータ) (2024-04-24T22:58:42Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Data Collaboration Analysis with Orthonormal Basis Selection and Alignment [2.928964540437144]
基本選択とアライメントフェーズの間に正規正規制約を強制する新しいフレームワークである textbf Orthonormal DC (ODC) を提案する。
任意のターゲットベースを許容する従来のDCとは異なり、ODCはターゲットを正規の正規ベースに制限し、モデルパフォーマンスに関する特定のベースの選択を無視する。
論文 参考訳(メタデータ) (2024-03-05T08:52:16Z) - TranDRL: A Transformer-Driven Deep Reinforcement Learning Enabled Prescriptive Maintenance Framework [58.474610046294856]
産業システムは、運用効率を高め、ダウンタイムを減らすための信頼性の高い予測保守戦略を要求する。
本稿では,Transformerモデルに基づくニューラルネットワークと深部強化学習(DRL)アルゴリズムの機能を活用し,システムの保守動作を最適化する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T02:27:54Z) - Distributed data analytics [8.415530878975751]
レコメンデーションシステムは、オンラインサービスプロバイダの重要なコンポーネントである。
金融業界は不正検出、リスク管理、コンプライアンスなどの分野で大量のデータを活用するためにMLを採用している。
論文 参考訳(メタデータ) (2022-03-26T14:10:51Z) - Efficient Logistic Regression with Local Differential Privacy [0.0]
モノのインターネット(Internet of Things)デバイスは急速に拡大し、大量のデータを生み出している。
これらのデバイスから収集されたデータを探索する必要性が高まっている。
コラボレーション学習は、モノのインターネット(Internet of Things)設定に戦略的ソリューションを提供すると同時に、データのプライバシに関する一般の懸念も引き起こす。
論文 参考訳(メタデータ) (2022-02-05T22:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。