論文の概要: Privacy-Preserving Dataset Combination
- arxiv url: http://arxiv.org/abs/2502.05765v3
- Date: Fri, 17 Oct 2025 01:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 15:58:54.299661
- Title: Privacy-Preserving Dataset Combination
- Title(参考訳): プライバシ保護データセットの組み合わせ
- Authors: Keren Fuentes, Mimee Xu, Irene Chen,
- Abstract要約: SecureKLは、プライバシリークをゼロとしたデータセットからデータセット評価のためのプロトコルである。
SecureKLはソースデータセットを候補に対して評価し、プライベートな計算で内部的にデータセット分散メトリクスを実行する。
現実世界のデータでは、SecureKLは高い一貫性(90%以上の非民間データとの相関関係)を実現し、有益なデータコラボレーションの特定に成功している。
- 参考スコア(独自算出の注目度): 1.0485433579460999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Access to diverse, high-quality datasets is crucial for machine learning model performance, yet data sharing remains limited by privacy concerns and competitive interests, particularly in regulated domains like healthcare. This dynamic especially disadvantages smaller organizations that lack resources to purchase data or negotiate favorable sharing agreements, due to the inability to \emph{privately} assess external data's utility. To resolve privacy and uncertainty tensions simultaneously, we introduce {\SecureKL}, the first secure protocol for dataset-to-dataset evaluations with zero privacy leakage, designed to be applied preceding data sharing. {\SecureKL} evaluates a source dataset against candidates, performing dataset divergence metrics internally with private computations, all without assuming downstream models. On real-world data, {\SecureKL} achieves high consistency ($>90\%$ correlation with non-private counterparts) and successfully identifies beneficial data collaborations in highly-heterogeneous domains (ICU mortality prediction across hospitals and income prediction across states). Our results highlight that secure computation maximizes data utilization, outperforming privacy-agnostic utility assessments that leak information.
- Abstract(参考訳): 多様な高品質データセットへのアクセスは、機械学習モデルのパフォーマンスに不可欠だが、データ共有はプライバシの懸念や競争上の関心、特に医療などの規制された領域によって制限されている。
このダイナミックさは、外部データのユーティリティーを評価することができないため、データを購入するリソースが不足したり、良好な共有契約を交渉する小さな組織に特に不利である。
プライバシと不確実性の緊張を同時に解消するために、プライバシリークをゼロとしたデータセットからデータセット評価のための最初の安全なプロトコルである {\SecureKL} を導入する。
{\SecureKL} はソースデータセットを候補に対して評価し、データセットの分散メトリクスをプライベートな計算で内部的に実行する。
実世界のデータについて、 {\SecureKL}は高一貫性(>90\%$の相関関係)を達成し、高度に不均一な領域(ICU死亡率予測と州全体での所得予測)における有益なデータコラボレーションをうまく識別する。
その結果、セキュアな計算がデータ利用を最大化し、情報を漏洩するプライバシー非依存のユーティリティアセスメントよりも優れていることがわかった。
関連論文リスト
- Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z) - Federated Learning for Cross-Domain Data Privacy: A Distributed Approach to Secure Collaboration [13.206587690640147]
本稿では,フェデレート学習に基づくデータプライバシ保護フレームワークを提案する。
分散学習によるデータプライバシの確保を前提として、効果的なクロスドメインデータコラボレーションを実現することを目的としている。
論文 参考訳(メタデータ) (2025-03-31T23:04:45Z) - Privacy-Preserving Collaborative Genomic Research: A Real-Life Deployment and Vision [2.7968600664591983]
本稿ではLynx.MDと共同で開発されたゲノム研究のためのプライバシ保護フレームワークを提案する。
このフレームワークは、重要なサイバーセキュリティとプライバシの課題に対処し、プライバシ保護によるゲノムデータの共有と分析を可能にする。
Lynx.MD内でのフレームワークの実装には、ゲノムデータをバイナリ形式に符号化し、制御された摂動技術を通じてノイズを適用することが含まれる。
論文 参考訳(メタデータ) (2024-07-12T05:43:13Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - CaPS: Collaborative and Private Synthetic Data Generation from Distributed Sources [5.898893619901382]
分散データホルダから合成データの協調的かつプライベートな生成のためのフレームワークを提案する。
我々は信頼されたアグリゲータをセキュアなマルチパーティ計算プロトコルに置き換え、差分プライバシー(DP)を介してプライバシを出力する。
MWEM+PGMおよびAIMの最先端選択測度生成アルゴリズムに対するアプローチの適用性とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2024-02-13T17:26:32Z) - Libertas: Privacy-Preserving Collective Computation for Decentralised Personal Data Stores [18.91869691495181]
モジュールアーキテクチャであるLibertasを導入し、MPCとSolidのようなPSDを統合する。
我々は、全知的な視点から、個人ベースの、ユーザ中心の信頼とセキュリティへのパラダイムシフトを紹介します。
論文 参考訳(メタデータ) (2023-09-28T12:07:40Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Privacy-Preserving Joint Edge Association and Power Optimization for the
Internet of Vehicles via Federated Multi-Agent Reinforcement Learning [74.53077322713548]
プライバシ保護型共同エッジアソシエーションと電力配分問題について検討する。
提案されたソリューションは、最先端のソリューションよりも高いプライバシレベルを維持しながら、魅力的なトレードオフにぶつかる。
論文 参考訳(メタデータ) (2023-01-26T10:09:23Z) - Collective Privacy Recovery: Data-sharing Coordination via Decentralized
Artificial Intelligence [2.309914459672557]
プライバシリカバリのための複雑な集合的アレンジメントの自動化とスケールアップ方法を示す。
私たちは初めて、時間的、内在的、報酬的、コーディネートされたデータ共有を比較した。
興味深いことに、データ共有のコーディネーションは、誰にとっても勝利だ。
論文 参考訳(メタデータ) (2023-01-15T01:36:46Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - "You Can't Fix What You Can't Measure": Privately Measuring Demographic
Performance Disparities in Federated Learning [78.70083858195906]
グループメンバーシップのプライバシを保護しつつ,グループ間でのパフォーマンスの差異を測定するための,差分プライベートなメカニズムを提案する。
我々の結果は、以前の研究の示唆に反して、プライバシ保護は必ずしもフェデレーションモデルの性能格差の特定と矛盾しているわけではないことを示している。
論文 参考訳(メタデータ) (2022-06-24T09:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。