論文の概要: A Common Pool of Privacy Problems: Legal and Technical Lessons from a Large-Scale Web-Scraped Machine Learning Dataset
- arxiv url: http://arxiv.org/abs/2506.17185v1
- Date: Fri, 20 Jun 2025 17:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.568991
- Title: A Common Pool of Privacy Problems: Legal and Technical Lessons from a Large-Scale Web-Scraped Machine Learning Dataset
- Title(参考訳): プライバシー問題の一般的なプール:大規模Webスクレイプ機械学習データセットの法的および技術的教訓
- Authors: Rachel Hong, Jevan Hutson, William Agnew, Imaad Huda, Tadayoshi Kohno, Jamie Morgenstern,
- Abstract要約: Webスクラッピングされた機械学習データセットの法的プライバシーへの影響はどのようなものか?
一般的なトレーニングデータセットの実証的研究では,衛生的努力にもかかわらず個人識別可能な情報の存在が顕著であることがわかった。
- 参考スコア(独自算出の注目度): 12.094673476388639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the contents of web-scraped data for training AI systems, at sizes where human dataset curators and compilers no longer manually annotate every sample. Building off of prior privacy concerns in machine learning models, we ask: What are the legal privacy implications of web-scraped machine learning datasets? In an empirical study of a popular training dataset, we find significant presence of personally identifiable information despite sanitization efforts. Our audit provides concrete evidence to support the concern that any large-scale web-scraped dataset may contain personal data. We use these findings of a real-world dataset to inform our legal analysis with respect to existing privacy and data protection laws. We surface various privacy risks of current data curation practices that may propagate personal information to downstream models. From our findings, we argue for reorientation of current frameworks of "publicly available" information to meaningfully limit the development of AI built upon indiscriminate scraping of the internet.
- Abstract(参考訳): 我々は、人間のデータセットキュレーターやコンパイラが手動ですべてのサンプルを注釈付けしないサイズで、AIシステムのトレーニングのためのWebスクラペットデータの内容を調査する。
マシンラーニングモデルにおける以前のプライバシの懸念から、私たちは疑問に思う。 Webスクラッピング機械学習データセットの法的プライバシの影響は、どのようなものなのでしょう?
一般的なトレーニングデータセットの実証的研究では、衛生活動にもかかわらず個人識別可能な情報の存在が顕著であることがわかった。
我々の監査は、大規模なウェブスクラッドデータセットが個人データを含む可能性があるという懸念を裏付ける具体的な証拠を提供する。
既存のプライバシーおよびデータ保護法に関して、実世界のデータセットのこれらの発見を法的な分析に役立てる。
ダウンストリームモデルに個人情報を伝達する可能性のある,現在のデータキュレーションプラクティスのさまざまなプライバシリスクを明らかにする。
我々の発見から、インターネットの無差別スクレーピングに基づくAIの開発を有意義に制限するために、現在利用可能な"パブリックな"情報のフレームワークの再編成を議論する。
関連論文リスト
- FT-PrivacyScore: Personalized Privacy Scoring Service for Machine Learning Participation [4.772368796656325]
実際には、制御されたデータアクセスは、多くの産業や研究環境でデータプライバシを保護する主要な方法である。
我々は,FT-PrivacyScoreのプロトタイプを開発し,モデル微調整作業に参加する際のプライバシーリスクを効率よく定量的に推定できることを実証した。
論文 参考訳(メタデータ) (2024-10-30T02:41:26Z) - Where you go is who you are -- A study on machine learning based
semantic privacy attacks [3.259843027596329]
本稿では,2つの攻撃シナリオ,すなわち位置分類とユーザプロファイリングを体系的に分析する。
Foursquareのデータセットと追跡データの実験は、高品質な空間情報の悪用の可能性を示している。
以上の結果から,追跡データや空間文脈データのデータベース化のリスクが指摘される。
論文 参考訳(メタデータ) (2023-10-26T17:56:50Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Protecting User Privacy in Online Settings via Supervised Learning [69.38374877559423]
我々は、教師付き学習を活用する、オンラインプライバシ保護に対するインテリジェントなアプローチを設計する。
ユーザのプライバシを侵害する可能性のあるデータ収集を検出してブロックすることにより、ユーザに対してある程度のディジタルプライバシを復元することが可能になります。
論文 参考訳(メタデータ) (2023-04-06T05:20:16Z) - Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining [75.25943383604266]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Certified Data Removal in Sum-Product Networks [78.27542864367821]
収集したデータの削除は、データのプライバシを保証するのに不十分であることが多い。
UnlearnSPNは、訓練された総生産ネットワークから単一データポイントの影響を取り除くアルゴリズムである。
論文 参考訳(メタデータ) (2022-10-04T08:22:37Z) - PRIVEE: A Visual Analytic Workflow for Proactive Privacy Risk Inspection
of Open Data [3.2136309934080867]
個人情報を含むオープンデータセットは、匿名化しても敵攻撃の影響を受けやすい。
我々は、ローカルで結合可能なデータ地区における開示リスクを、データディフェンダーが認識できるようにするビジュアル分析ソリューションを開発した。
我々はこの問題とドメイン特性を用いて、防御機構としての視覚的分析的介入のセットを開発する。
論文 参考訳(メタデータ) (2022-08-12T19:57:09Z) - Security and Privacy Preserving Deep Learning [2.322461721824713]
ディープラーニングに必要な膨大なデータ収集は、明らかにプライバシーの問題を提示している。
写真や音声録音などの、個人的かつ高感度なデータは、収集する企業によって無期限に保持される。
深層ニューラルネットワークは、トレーニングデータに関する情報を記憶するさまざまな推論攻撃の影響を受けやすい。
論文 参考訳(メタデータ) (2020-06-23T01:53:46Z) - Privacy in Deep Learning: A Survey [16.278779275923448]
多くの分野でのディープラーニングの継続的な進歩は、プロダクションシステムにDeep Neural Networks(DNN)の採用につながっている。
大規模なデータセットと高い計算能力がこれらの進歩の主な貢献者である。
このデータはさまざまな脆弱性によって誤用または漏洩される可能性があるため、プライバシー上の深刻な懸念が生じる。
論文 参考訳(メタデータ) (2020-04-25T23:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。