論文の概要: SoK: Data Minimization in Machine Learning
- arxiv url: http://arxiv.org/abs/2508.10836v1
- Date: Thu, 14 Aug 2025 17:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.421839
- Title: SoK: Data Minimization in Machine Learning
- Title(参考訳): SoK: 機械学習におけるデータ最小化
- Authors: Robin Staab, Nikola Jovanović, Kimberly Mai, Prakhar Ganesh, Martin Vechev, Ferdinando Fioretto, Matthew Jagielski,
- Abstract要約: データ最小化(DM)は、与えられたタスクに必要なデータのみを収集する原則を記述している。
データ最小化の関連性は特に機械学習(ML)アプリケーションで顕著である。
他のMLプライバシおよびセキュリティトピックに関する既存の作業は、接続を明示的に認識することなく、DMMLに関連する問題に対処することが多い。
この作業では、統合データパイプライン、敵、最小化ポイントなど、DMMLの包括的なフレームワークを導入している。
- 参考スコア(独自算出の注目度): 49.60064304454055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data minimization (DM) describes the principle of collecting only the data strictly necessary for a given task. It is a foundational principle across major data protection regulations like GDPR and CPRA. Violations of this principle have substantial real-world consequences, with regulatory actions resulting in fines reaching hundreds of millions of dollars. Notably, the relevance of data minimization is particularly pronounced in machine learning (ML) applications, which typically rely on large datasets, resulting in an emerging research area known as Data Minimization in Machine Learning (DMML). At the same time, existing work on other ML privacy and security topics often addresses concerns relevant to DMML without explicitly acknowledging the connection. This disconnect leads to confusion among practitioners, complicating their efforts to implement DM principles and interpret the terminology, metrics, and evaluation criteria used across different research communities. To address this gap, our work introduces a comprehensive framework for DMML, including a unified data pipeline, adversaries, and points of minimization. This framework allows us to systematically review the literature on data minimization and \emph{DM-adjacent} methodologies, for the first time presenting a structured overview designed to help practitioners and researchers effectively apply DM principles. Our work facilitates a unified DM-centric understanding and broader adoption of data minimization strategies in AI/ML.
- Abstract(参考訳): データ最小化(DM)は、与えられたタスクに必要なデータのみを収集する原則を記述している。
これはGDPRやCPRAといった主要なデータ保護規制の基本的な原則である。
この原則の違反は実質的な結果をもたらし、規制行動によって罰金は数億ドルに達する。
特に、データ最小化の関連性は、一般的に大規模なデータセットに依存する機械学習(ML)アプリケーションで顕著であり、結果として、機械学習におけるデータ最小化(DMML)として知られる新たな研究領域が生まれている。
それと同時に、他のMLプライバシおよびセキュリティトピックに関する既存の作業は、接続を明示的に認識することなく、DMMLに関連する問題に対処することが多い。
この断絶は実践者の間で混乱を招き、DMの原則を実践し、異なる研究コミュニティで使用される用語、メトリクス、評価基準を解釈する努力を複雑にしている。
このギャップに対処するため、当社の作業では、統合データパイプライン、敵、最小化ポイントを含む、DMMLの包括的なフレームワークを導入しています。
このフレームワークは,データ最小化と 'emph{DM-adjacent} 方法論に関する文献を体系的にレビューし,実践者や研究者がDM原則を効果的に適用するための構造化された概要を初めて提示する。
我々の研究は、統合DM中心の理解とAI/MLにおけるデータ最小化戦略のより広範な採用を促進する。
関連論文リスト
- Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文 参考訳(メタデータ) (2025-01-17T17:51:22Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - The trade-off between data minimization and fairness in collaborative filtering [1.8936798735951967]
一般データ保護規則は、個人個人の個人情報を害から保護することを目的としている。
完全なコンプライアンスはEUでは必須だが、他の地域では必須ではない。
本稿では,データ最小化の原理とレコメンダシステムにおける公平性の関係について検討する。
論文 参考訳(メタデータ) (2024-09-21T02:32:26Z) - From Principle to Practice: Vertical Data Minimization for Machine
Learning [15.880586296169687]
政策立案者はデータ最小化(DM)原則の遵守をますます要求している。
規制圧力にもかかわらず、DMに従う機械学習モデルをデプロイする問題は、今のところほとんど注目されていない。
データ一般化に基づく新しい垂直DM(vDM)ワークフローを提案する。
論文 参考訳(メタデータ) (2023-11-17T13:01:09Z) - Learning to Limit Data Collection via Scaling Laws: Data Minimization
Compliance in Practice [62.44110411199835]
我々は機械学習法における文献に基づいて、データとシステム性能を結びつけるデータ解釈に基づく収集を制限するフレームワークを提案する。
我々は、性能曲線微分に基づくデータ最小化基準を定式化し、有効かつ解釈可能な分数法法技術を提供する。
論文 参考訳(メタデータ) (2021-07-16T19:59:01Z) - Operationalizing the Legal Principle of Data Minimization for
Personalization [64.0027026050706]
データ最小化原理の同質な解釈が欠如していることを認識し、パーソナライゼーションの文脈に適用可能な2つの運用定義を探索する。
データ最小化によるパフォーマンス低下はそれほど大きくないかもしれないが、異なるユーザに影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-05-28T00:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。