論文の概要: Learning to Limit Data Collection via Scaling Laws: Data Minimization
Compliance in Practice
- arxiv url: http://arxiv.org/abs/2107.08096v1
- Date: Fri, 16 Jul 2021 19:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 10:28:07.433213
- Title: Learning to Limit Data Collection via Scaling Laws: Data Minimization
Compliance in Practice
- Title(参考訳): スケーリング法則によるデータ収集の制限学習: 実践におけるデータ最小化コンプライアンス
- Authors: Divya Shanmugam, Samira Shabanian, Fernando Diaz, Mich\`ele Finck,
Asia Biega
- Abstract要約: 我々は機械学習法における文献に基づいて、データとシステム性能を結びつけるデータ解釈に基づく収集を制限するフレームワークを提案する。
我々は、性能曲線微分に基づくデータ最小化基準を定式化し、有効かつ解釈可能な分数法法技術を提供する。
- 参考スコア(独自算出の注目度): 62.44110411199835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data minimization is a legal obligation defined in the European Union's
General Data Protection Regulation (GDPR) as the responsibility to process an
adequate, relevant, and limited amount of personal data in relation to a
processing purpose. However, unlike fairness or transparency, the principle has
not seen wide adoption for machine learning systems due to a lack of
computational interpretation. In this paper, we build on literature in machine
learning and law to propose the first learning framework for limiting data
collection based on an interpretation that ties the data collection purpose to
system performance. We formalize a data minimization criterion based on
performance curve derivatives and provide an effective and interpretable
piecewise power law technique that models distinct stages of an algorithm's
performance throughout data collection. Results from our empirical
investigation offer deeper insights into the relevant considerations when
designing a data minimization framework, including the choice of feature
acquisition algorithm, initialization conditions, as well as impacts on
individuals that hint at tensions between data minimization and fairness.
- Abstract(参考訳): データ最小化(英: data minimization)とは、欧州連合(eu)の一般データ保護規則(gdpr)において、処理目的に関する適切な、関連する、限られた量の個人情報を処理する責任として定義される法的義務である。
しかし、公平さや透明性とは異なり、この原理は計算解釈の欠如のために機械学習システムに広く採用されていない。
本稿では,機械学習と法学の文献をもとに,データ収集目的とシステム性能を関連付けた解釈に基づくデータ収集を制限するための最初の学習フレームワークを提案する。
性能曲線微分に基づくデータ最小化基準を定式化し、データ収集全体を通してアルゴリズムの性能の異なる段階をモデル化する効果的かつ解釈可能な分法手法を提供する。
実験的な調査の結果は、特徴獲得アルゴリズムの選択、初期化条件、データ最小化と公正性の緊張を示唆する個人への影響など、データ最小化フレームワークを設計する際の関連する考慮事項に関する深い洞察を提供する。
関連論文リスト
- LAVA: Data Valuation without Pre-Specified Learning Algorithms [8.418021941792281]
この作業は、ダウンストリーム学習アルゴリズムに非依存な方法でトレーニングデータを評価可能な、新たなフレームワークを導入することで、現在のデータバリュエーションメソッドの限界を乗り越えるものだ。
本研究では,トレーニングと検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Fair Off-Policy Learning from Observational Data [18.640006398066188]
企業や組織は、法的、倫理的、社会的要求を満たすために、アルゴリズムによる意思決定が公平であることを保証する必要がある。
我々は、公正な政治学学習のための新しい枠組みを提案する。
次に、これらの公正性の概念の下で最適なポリシーを学習するための機械学習アプローチを提案する。
論文 参考訳(メタデータ) (2023-03-15T10:47:48Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - Reviving Purpose Limitation and Data Minimisation in Personalisation,
Profiling and Decision-Making Systems [0.0]
本論文では、学際法則とコンピュータサイエンスレンズを通じて、データ駆動システムにおいてデータ最小化と目的制限を有意義に実装できるかどうかを決定する。
分析の結果,この2つの法原則が個人データ処理のリスク軽減に重要な役割を担っていることが明らかとなった。
これらの原則は検討中のシステムにおいて重要なセーフガードであるが、実用的な実装には重要な制限がある。
論文 参考訳(メタデータ) (2021-01-15T16:36:29Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Operationalizing the Legal Principle of Data Minimization for
Personalization [64.0027026050706]
データ最小化原理の同質な解釈が欠如していることを認識し、パーソナライゼーションの文脈に適用可能な2つの運用定義を探索する。
データ最小化によるパフォーマンス低下はそれほど大きくないかもしれないが、異なるユーザに影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-05-28T00:43:06Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。