論文の概要: Lessons from the AdKDD'21 Privacy-Preserving ML Challenge
- arxiv url: http://arxiv.org/abs/2201.13123v1
- Date: Mon, 31 Jan 2022 11:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 17:32:21.375490
- Title: Lessons from the AdKDD'21 Privacy-Preserving ML Challenge
- Title(参考訳): AdKDD'21によるプライバシ保護MLチャレンジからの教訓
- Authors: Eustache Diemert, Romain Fabre, Alexandre Gilotte, Fei Jia, Basile
Leparmentier, J\'er\'emie Mary, Zhonghua Qu, Ugo Tanielian, Hui Yang
- Abstract要約: W3Cの顕著な提案では、過去のディスプレイの集計された、差別化されたプライベートなレポートを通じてのみ広告信号を共有することができる。
この提案を広く研究するために、AdKDD'21でオープンなプライバシ保護機械学習チャレンジが行われた。
重要な発見は、大量の集約されたデータの小さな集合が存在する場合の学習モデルは驚くほど効率的で安価であることである。
- 参考スコア(独自算出の注目度): 57.365745458033075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing data sharing mechanisms providing performance and strong privacy
guarantees is a hot topic for the Online Advertising industry. Namely, a
prominent proposal discussed under the Improving Web Advertising Business Group
at W3C only allows sharing advertising signals through aggregated,
differentially private reports of past displays. To study this proposal
extensively, an open Privacy-Preserving Machine Learning Challenge took place
at AdKDD'21, a premier workshop on Advertising Science with data provided by
advertising company Criteo. In this paper, we describe the challenge tasks, the
structure of the available datasets, report the challenge results, and enable
its full reproducibility. A key finding is that learning models on large,
aggregated data in the presence of a small set of unaggregated data points can
be surprisingly efficient and cheap. We also run additional experiments to
observe the sensitivity of winning methods to different parameters such as
privacy budget or quantity of available privileged side information. We
conclude that the industry needs either alternate designs for private data
sharing or a breakthrough in learning with aggregated data only to keep ad
relevance at a reasonable level.
- Abstract(参考訳): パフォーマンスと強力なプライバシー保証を提供するデータ共有メカニズムの設計は、オンライン広告業界にとってホットなトピックである。
すなわち、W3C の Improving Web Advertising Business Group の下で議論されている顕著な提案は、過去のディスプレイの集計された、差別化されたプライベートなレポートを通じてのみ広告信号を共有することができる。
この提案を広く研究するために、広告会社Criteoが提供したデータを使った広告科学に関する最初のワークショップであるAdKDD'21で、オープンプライバシ保護機械学習チャレンジが開催された。
本稿では,課題課題,利用可能なデータセットの構造,課題結果の報告,完全な再現性の実現について述べる。
重要な発見は、大量の集約されたデータの小さな集合が存在する場合の学習モデルは驚くほど効率的で安価であることである。
また、プライバシ予算や利用可能な特権側情報の量など、異なるパラメータに対する入賞方法の感度を観察するための追加実験も実施する。
業界には、プライベートなデータ共有のための代替設計や、アグリゲートされたデータによる学習のブレークスルーが必要だと結論付けています。
関連論文リスト
- Digital Advertising in a Post-Cookie World: Charting the Impact of Google's Topics API [0.38233569758620056]
GoogleのTopics APIをデジタル広告エコシステムに統合することは、プライバシを重視した広告プラクティスへの大きなシフトである。
本稿では、競合のダイナミクスと広告空間のアクセシビリティに焦点をあて、広告ネットワークにトピックAPIを実装することの意味を分析する。
論文 参考訳(メタデータ) (2024-09-21T09:04:16Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - DCFL: Non-IID awareness Data Condensation aided Federated Learning [0.8158530638728501]
フェデレートラーニング(Federated Learning)とは、特定の量のプライベートデータセットを持つクライアントを活用して、中央サーバがグローバルモデルを反復的にトレーニングする分散学習パラダイムである。
問題は、クライアントサイドのプライベートデータが同一かつ独立して分散されないという事実にある。
本稿では、CKA(Centered Kernel Alignment)法を用いてクライアントをグループに分割し、IID非認識のデータセット凝縮法を用いてクライアントを完全化するDCFLを提案する。
論文 参考訳(メタデータ) (2023-12-21T13:04:24Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - PRIVEE: A Visual Analytic Workflow for Proactive Privacy Risk Inspection
of Open Data [3.2136309934080867]
個人情報を含むオープンデータセットは、匿名化しても敵攻撃の影響を受けやすい。
我々は、ローカルで結合可能なデータ地区における開示リスクを、データディフェンダーが認識できるようにするビジュアル分析ソリューションを開発した。
我々はこの問題とドメイン特性を用いて、防御機構としての視覚的分析的介入のセットを開発する。
論文 参考訳(メタデータ) (2022-08-12T19:57:09Z) - Sotto Voce: Federated Speech Recognition with Differential Privacy
Guarantees [0.761963751158349]
音声データは収集するのに高価で、情報源に非常に敏感です。
組織が独立して自身の使用のために小さなデータセットを収集している場合が多いが、マシンラーニングの要求に対してパフォーマンスが低い場合も少なくない。
しかし、明快なデータ共有は、知的財産の喪失とデータセットに存在する個人のプライバシーの喪失という点で、非常に危険なリスクを伴っている。
論文 参考訳(メタデータ) (2022-07-16T02:48:54Z) - VFed-SSD: Towards Practical Vertical Federated Advertising [53.08038962443853]
本稿では,2つの制限を緩和する半教師付き分割蒸留フレームワーク VFed-SSD を提案する。
具体的には,垂直分割された未ラベルデータを利用する自己教師型タスクMatchedPair Detection (MPD) を開発する。
当社のフレームワークは,デプロイコストの最小化と大幅なパフォーマンス向上を図った,リアルタイム表示広告のための効率的なフェデレーション強化ソリューションを提供する。
論文 参考訳(メタデータ) (2022-05-31T17:45:30Z) - Utility-aware Privacy-preserving Data Releasing [7.462336024223669]
本稿では2段階の摂動に基づくプライバシー保護データ公開フレームワークを提案する。
まず、特定の事前定義されたプライバシとユーティリティの問題がパブリックドメインデータから学習される。
そして、学習した知識を活用して、データ所有者のデータを民営化したデータに正確に摂動させます。
論文 参考訳(メタデータ) (2020-05-09T05:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。