論文の概要: A Public and Reproducible Assessment of the Topics API on Real Data
- arxiv url: http://arxiv.org/abs/2403.19577v3
- Date: Thu, 15 Aug 2024 16:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 18:41:00.733475
- Title: A Public and Reproducible Assessment of the Topics API on Real Data
- Title(参考訳): 実データにおけるトピックAPIの公開と再現性評価
- Authors: Yohan Beugin, Patrick McDaniel,
- Abstract要約: Topics API for the Webは、サードパーティのクッキーに代わる、Googleのプライバシ向上のためのAPIだ。
以前の作業の結果、ユーティリティとプライバシの両方をトレードオフするトピクスの能力に関する議論が続いている。
本稿では,Topicsがすべてのユーザに対して同じプライバシー保証を提供していない,情報漏洩が時間とともに悪化する,という実データについて述べる。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Topics API for the web is Google's privacy-enhancing alternative to replace third-party cookies. Results of prior work have led to an ongoing discussion between Google and research communities about the capability of Topics to trade off both utility and privacy. The central point of contention is largely around the realism of the datasets used in these analyses and their reproducibility; researchers using data collected on a small sample of users or generating synthetic datasets, while Google's results are inferred from a private dataset. In this paper, we complement prior research by performing a reproducible assessment of the latest version of the Topics API on the largest and publicly available dataset of real browsing histories. First, we measure how unique and stable real users' interests are over time. Then, we evaluate if Topics can be used to fingerprint the users from these real browsing traces by adapting methodologies from prior privacy studies. Finally, we call on web actors to perform and enable reproducible evaluations by releasing anonymized distributions. We find that for the 1207 real users in this dataset, the probability of being re-identified across websites is of 2%, 3%, and 4% after 1, 2, and 3 observations of their topics by advertisers, respectively. This paper shows on real data that Topics does not provide the same privacy guarantees to all users and that the information leakage worsens over time, further highlighting the need for public and reproducible evaluations of the claims made by new web proposals.
- Abstract(参考訳): Topics API for the Webは、サードパーティのクッキーに代わる、Googleのプライバシ向上のためのAPIだ。
以前の作業の結果、Googleと研究コミュニティの間で、ユーティリティとプライバシの両方をトレードオフするTopicsの能力に関する議論が続いている。
競合の中心は、これらの分析で使用されるデータセットのリアリズムとその再現性である。少数のユーザサンプルで収集されたデータを使用したり、合成データセットを生成する研究者が、Googleの結果はプライベートデータセットから推測される。
本稿では,リアルタイム閲覧履歴の最大かつ一般公開されたデータセット上で,最新のトピックスAPIの再現可能な評価を行うことにより,先行研究を補完する。
まず、時間とともに実際のユーザの興味がいかにユニークで安定したかを測定する。
そこで,従来のプライバシ研究の方法論を応用して,これらの実際のブラウジングトレースからユーザをフィンガープリントできるかどうかを評価する。
最後に,Webアクターに,匿名分布を公開して再現可能な評価を行うよう呼びかける。
このデータセットの実際のユーザ1207人に対して、広告主がトピックを調査した結果、ウェブサイト間で再識別される確率はそれぞれ2%、3%、4%であることがわかった。
本稿では,Topicsがすべてのユーザに対して同一のプライバシ保証を提供していないこと,情報漏洩が時間とともに悪化していること,さらに新たなWeb提案によるクレームの公開および再現可能な評価の必要性を強調した実データについて述べる。
関連論文リスト
- Evaluating Differentially Private Synthetic Data Generation in High-Stakes Domains [9.123834467375532]
実データの代わりに、微分プライベート言語モデルから生成された合成データを用いて、高速領域におけるNLPの開発を容易にする可能性について検討する。
以上の結果から,従来の簡易評価では,合成データの有用性,プライバシ,公平性を強調できなかったことが示唆された。
論文 参考訳(メタデータ) (2024-10-10T19:31:02Z) - How Unique is Whose Web Browser? The role of demographics in browser fingerprinting among US users [50.699390248359265]
ブラウザのフィンガープリントは、クッキーを使わずとも、Web上のユーザを識別し、追跡するために利用できる。
この技術と結果として生じるプライバシーリスクは10年以上にわたって研究されてきた。
我々は、さらなる研究を可能にするファースト・オブ・ザ・キンド・データセットを提供する。
論文 参考訳(メタデータ) (2024-10-09T14:51:58Z) - The Privacy-Utility Trade-off in the Topics API [0.34952465649465553]
我々は、各インターネットユーザに対する再識別リスクと広告会社に提供するユーティリティについて、トピックスAPIを用いて分析する。
将来的なAPI更新のプライバシと実用性を評価するために、容易に適用可能なAPIパラメータのみに依存する理論的結果を提供する。
論文 参考訳(メタデータ) (2024-06-21T17:01:23Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - On the Robustness of Topics API to a Re-Identification Attack [6.157783777246449]
Googleは、行動広告のプライバシフレンドリな代替手段として、Topics APIフレームワークを提案した。
本稿では,Topics APIの再識別攻撃に対するロバスト性を評価する。
ユーザのプロファイルがウェブサイトのオーディエンス内でユニークである可能性が大きいため,Topics APIは緩和されるが,再識別の防止はできない。
論文 参考訳(メタデータ) (2023-06-08T10:53:48Z) - Reasoning over Public and Private Data in Retrieval-Based Systems [29.515915401413334]
State-of-the-artシステムは、回答を生成する前に、背景コーパスからユーザ質問に関連する情報を明示的に検索する。
今日の検索システムは、コーパスが完全にアクセス可能であることを前提としているが、ユーザーはプライベートデータを公開データをホストするエンティティに公開することを望んでいないことが多い。
PAIR(Public-PRIVATE AUTOREGRESSIVE Information RetriEVAL) のプライバシ・フレームワークを,複数のプライバシ・スコープにまたがる新規検索設定のために最初に定義する。
論文 参考訳(メタデータ) (2022-03-14T13:08:51Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Lessons from the AdKDD'21 Privacy-Preserving ML Challenge [57.365745458033075]
W3Cの顕著な提案では、過去のディスプレイの集計された、差別化されたプライベートなレポートを通じてのみ広告信号を共有することができる。
この提案を広く研究するために、AdKDD'21でオープンなプライバシ保護機械学習チャレンジが行われた。
重要な発見は、大量の集約されたデータの小さな集合が存在する場合の学習モデルは驚くほど効率的で安価であることである。
論文 参考訳(メタデータ) (2022-01-31T11:09:59Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。