Fugu-MT 論文翻訳(概要): Footprints of Data in a Classifier: Understanding the Privacy Risks and Solution Strategies

論文の概要: Footprints of Data in a Classifier: Understanding the Privacy Risks and Solution Strategies

arxiv url: http://arxiv.org/abs/2407.02268v2
Date: Sat, 12 Apr 2025 08:36:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 13:45:15.226128
Title: Footprints of Data in a Classifier: Understanding the Privacy Risks and Solution Strategies
Title（参考訳）: 分類器におけるデータのフットプリント:プライバシーリスクと解決策戦略を理解する
Authors: Payel Sadhukhan, Tanujit Chakraborty,
Abstract要約: 一般データ保護規則(Right Erasure)第17条は、潜在的な妥協を防ぐために、システムから永久にデータを除去することを要求する。そのような問題の1つは、予測モデルに埋め込まれたトレーニングデータの残余のフットプリントから生じる。本研究は,分類器システムの2つの基本的な側面 – 訓練品質と分類器訓練方法 – が,プライバシの脆弱性にどのように寄与するかを検討する。
参考スコア（独自算出の注目度）: 0.9208007322096533
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The widespread deployment of Artificial Intelligence (AI) across government and private industries brings both advancements and heightened privacy and security concerns. Article 17 of the General Data Protection Regulation (GDPR) mandates the Right to Erasure, requiring data to be permanently removed from a system to prevent potential compromise. While existing research primarily focuses on erasing sensitive data attributes, several passive data compromise mechanisms remain underexplored and unaddressed. One such issue arises from the residual footprints of training data embedded within predictive models. Performance disparities between test and training data can inadvertently reveal which data points were part of the training set, posing a privacy risk. This study examines how two fundamental aspects of classifier systems - training data quality and classifier training methodology - contribute to privacy vulnerabilities. Our theoretical analysis demonstrates that classifiers exhibit universal vulnerability under conditions of data imbalance and distributional shifts. Empirical findings reinforce our theoretical results, highlighting the significant role of training data quality in classifier susceptibility. Additionally, our study reveals that a classifier's operational mechanism and architectural design impact its vulnerability. We further investigate mitigation strategies through data obfuscation techniques and analyze their impact on both privacy and classification performance. To aid practitioners, we introduce a privacy-performance trade-off index, providing a structured approach to balancing privacy protection with model effectiveness. The findings offer valuable insights for selecting classifiers and curating training data in diverse real-world applications.
Abstract（参考訳）: 政府や民間産業にAI(Artificial Intelligence, 人工知能)が広く普及したことで、プライバシーとセキュリティの懸念が高まっている。一般データ保護規則(GDPR)第17条は、潜在的な妥協を防ぐために、データをシステムから永久的に取り除くことを義務付けている。既存の研究は主に機密データ属性の消去に重点を置いているが、いくつかの受動的データ妥協メカニズムは未調査であり、未修正のままである。そのような問題の1つは、予測モデルに埋め込まれたトレーニングデータの残余のフットプリントから生じる。テストデータとトレーニングデータのパフォーマンスの相違は、どのデータポイントがトレーニングセットの一部であるかを不注意に明らかにし、プライバシのリスクを生じさせる。本研究では,分類器システムの2つの基本的な側面 – データ品質のトレーニングと分類器のトレーニング手法 – が,プライバシの脆弱性にどのように寄与するかを検討する。理論解析により,データ不均衡や分散シフトの条件下では,分類器が普遍的な脆弱性を示すことが示された。実験結果から,分類器の感受性におけるトレーニングデータ品質の重要性が示唆された。さらに本研究では,分類器の動作機構とアーキテクチャ設計が脆弱性に影響を及ぼすことを明らかにした。さらに,データ難読化手法による緩和戦略について検討し,プライバシと分類性能に与える影響について検討する。実践者を支援するため,プライバシ保護とモデルの有効性のバランスをとるための構造的アプローチとして,プライバシパフォーマンストレードオフ指標を導入する。この発見は、さまざまな現実世界のアプリケーションで分類器を選択し、トレーニングデータをキュレートするための貴重な洞察を提供する。

関連論文リスト

Towards Benchmarking Privacy Vulnerabilities in Selective Forgetting with Large Language Models [28.389198065125314]
選択的な忘れ(マシンアンラーニングとも呼ばれる)は、プライバシとデータ削除タスクの約束を示している。その約束にもかかわらず、選択的な忘れ物はプライバシーの懸念を生じさせる。プライバシの脆弱性を選択的に評価するための、最初の包括的なベンチマークを示す。
論文参考訳（メタデータ） (2025-12-19T20:04:06Z)
DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [59.66984417026933]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文参考訳（メタデータ） (2025-07-08T03:07:15Z)
Rethinking Data Protection in the (Generative) Artificial Intelligence Era [115.71019708491386]
現代の(生産的な)AIモデルやシステムに生じる多様な保護ニーズを捉える4段階の分類法を提案する。当社のフレームワークは、データユーティリティとコントロールのトレードオフに関する構造化された理解を提供し、AIパイプライン全体にわたっています。
論文参考訳（メタデータ） (2025-07-03T02:45:51Z)
Differential Privacy in Machine Learning: From Symbolic AI to LLMs [49.1574468325115]
差別化プライバシは、プライバシーリスクを軽減するための正式なフレームワークを提供する。単一のデータポイントの包含や除外がアルゴリズムの出力を著しく変更しないことを保証する。
論文参考訳（メタデータ） (2025-06-13T11:30:35Z)
FEDLAD: Federated Evaluation of Deep Leakage Attacks and Defenses [50.921333548391345]
フェデレーテッド・ラーニング(Federated Learning)は、分散型機械学習パラダイムをプライバシ保護するものだ。近年の研究では、Deep Leakageと呼ばれる勾配技術によって、民間の真実データを復元できることが判明している。本稿では、Deep Leakage攻撃と防御を評価するための総合的なベンチマークであるFEDLAD Framework(Federated Evaluation of Deep Leakage Attacks and Defenses)を紹介する。
論文参考訳（メタデータ） (2024-11-05T11:42:26Z)
Verification of Machine Unlearning is Fragile [48.71651033308842]
両タイプの検証戦略を回避できる2つの新しい非学習プロセスを導入する。この研究は、機械学習検証の脆弱性と限界を強調し、機械学習の安全性に関するさらなる研究の道を開く。
論文参考訳（メタデータ） (2024-08-01T21:37:10Z)
Silver Linings in the Shadows: Harnessing Membership Inference for Machine Unlearning [7.557226714828334]
ニューラルネットワークから特定のデータサンプルの影響を除去する新しい学習機構を提案する。この目的を達成するために、我々は、ターゲットモデルの重みやアクティベーション値からプライバシーに敏感な情報を排除するための、新しい損失関数を構築した。本研究の結果は,未学習の有効性とレイテンシ,および主課題の忠実度の観点から,我々のアプローチの優れた性能を示すものである。
論文参考訳（メタデータ） (2024-07-01T00:20:26Z)
The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (2024-03-23T09:26:15Z)
FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。 FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文参考訳（メタデータ） (2024-03-10T08:41:22Z)
Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文参考訳（メタデータ） (2023-07-04T18:37:11Z)
Stop Uploading Test Data in Plain Text: Practical Strategies for Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。 1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文参考訳（メタデータ） (2023-05-17T12:23:38Z)
It Is All About Data: A Survey on the Effects of Data on Adversarial Robustness [4.1310970179750015]
逆の例は、攻撃者が意図的にモデルを混乱させてミスを犯すように設計された機械学習モデルへの入力である。この問題に対処するために、敵の堅牢性の領域は、敵の攻撃の背後にあるメカニズムとこれらの攻撃に対する防御を調査する。
論文参考訳（メタデータ） (2023-03-17T04:18:03Z)
Membership Inference Attacks against Synthetic Data through Overfitting Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文参考訳（メタデータ） (2023-02-24T11:27:39Z)
Digital Privacy Under Attack: Challenges and Enablers [11.061112334099597]
我々は、匿名データ、統計集計、プライバシー保護モデルという3つのドメインをターゲットにした攻撃を体系的に分類する。各カテゴリにおいて、攻撃方法、敵の能力、脆弱性メカニズムを解析する。我々の分析によると、差分プライバシーは強力な理論的保証を提供するが、新たな攻撃に対する実装上の課題と潜在的な脆弱性に直面している。
論文参考訳（メタデータ） (2023-02-18T08:34:34Z)
A Survey on Differential Privacy with Machine Learning and Future Outlook [0.0]
差分プライバシーは、あらゆる攻撃や脆弱性から機械学習モデルを保護するために使用される。本稿では,2つのカテゴリに分類される差分プライベート機械学習アルゴリズムについて述べる。
論文参考訳（メタデータ） (2022-11-19T14:20:53Z)
Striving for data-model efficiency: Identifying data externalities on group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文参考訳（メタデータ） (2022-11-11T16:48:27Z)
Uncertainty-Autoencoder-Based Privacy and Utility Preserving Data Type Conscious Transformation [3.7315964084413173]
プライバシ・ユーティリティのトレードオフ問題に対処する逆学習フレームワークを2つの条件で提案する。データタイプの無知な条件下では、プライバシメカニズムは、正確に1つのクラスを表す、カテゴリ機能の1ホットエンコーディングを提供する。データ型認識条件下では、分類変数は各クラスごとに1つのスコアの集合で表される。
論文参考訳（メタデータ） (2022-05-04T08:40:15Z)
Towards a Data Privacy-Predictive Performance Trade-off [2.580765958706854]
分類タスクにおけるデータプライバシと予測性能のトレードオフの存在を評価する。従来の文献とは異なり、プライバシーのレベルが高ければ高いほど、予測性能が向上することを確認した。
論文参考訳（メタデータ） (2022-01-13T21:48:51Z)
Enhanced Membership Inference Attacks against Machine Learning Models [9.26208227402571]
メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークする個人情報の定量化に使用される。我々は,AUCスコアを高い精度で達成できる新たな攻撃アルゴリズムを導き,その性能に影響を及ぼすさまざまな要因を強調した。我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用することができる。
論文参考訳（メタデータ） (2021-11-18T13:31:22Z)
Federated Test-Time Adaptive Face Presentation Attack Detection with Dual-Phase Privacy Preservation [100.69458267888962]
顔提示攻撃検出(fPAD)は、現代の顔認識パイプラインにおいて重要な役割を果たす。法的およびプライバシー上の問題により、トレーニングデータ(実際の顔画像と偽画像)は、異なるデータソース間で直接共有することはできない。本稿では,二相プライバシー保護フレームワークを用いたフェデレーションテスト時間適応顔提示検出を提案する。
論文参考訳（メタデータ） (2021-10-25T02:51:05Z)
Privacy-Preserving Federated Learning on Partitioned Attributes [6.661716208346423]
フェデレーション学習は、ローカルデータやモデルを公開することなく、協調的なトレーニングを促進する。ローカルモデルをチューニングし、プライバシー保護された中間表現をリリースする逆学習ベースの手順を紹介します。精度低下を緩和するために,前方後方分割アルゴリズムに基づく防御法を提案する。
論文参考訳（メタデータ） (2021-04-29T14:49:14Z)
Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks, and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文参考訳（メタデータ） (2020-12-18T22:38:47Z)
Robustness Threats of Differential Privacy [70.818129585404]
我々は、いくつかの設定で差分プライバシーをトレーニングしたネットワークが、非プライベートバージョンに比べてさらに脆弱であることを実験的に実証した。本研究では,勾配クリッピングや雑音付加などのニューラルネットワークトレーニングの主成分が,モデルの堅牢性に与える影響について検討する。
論文参考訳（メタデータ） (2020-12-14T18:59:24Z)
Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文参考訳（メタデータ） (2020-11-02T20:04:18Z)
Differentially Private and Fair Deep Learning: A Lagrangian Dual Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文参考訳（メタデータ） (2020-09-26T10:50:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。