論文の概要: Machine Unlearning for Document Classification
- arxiv url: http://arxiv.org/abs/2404.19031v1
- Date: Mon, 29 Apr 2024 18:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:19:58.268180
- Title: Machine Unlearning for Document Classification
- Title(参考訳): 文書分類のための機械学習
- Authors: Lei Kang, Mohamed Ali Souibgui, Fei Yang, Lluis Gomez, Ernest Valveny, Dimosthenis Karatzas,
- Abstract要約: 機械学習として知られる新しいアプローチが登場し、AIモデルを特定の種類のデータを忘れるようにしている。
この研究は、文書分析アプリケーションにおけるプライバシー問題に対処することを目的とした機械学習手法の開発に向けた先駆的なステップである。
- 参考スコア(独自算出の注目度): 14.71726430657162
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document understanding models have recently demonstrated remarkable performance by leveraging extensive collections of user documents. However, since documents often contain large amounts of personal data, their usage can pose a threat to user privacy and weaken the bonds of trust between humans and AI services. In response to these concerns, legislation advocating ``the right to be forgotten" has recently been proposed, allowing users to request the removal of private information from computer systems and neural network models. A novel approach, known as machine unlearning, has emerged to make AI models forget about a particular class of data. In our research, we explore machine unlearning for document classification problems, representing, to the best of our knowledge, the first investigation into this area. Specifically, we consider a realistic scenario where a remote server houses a well-trained model and possesses only a small portion of training data. This setup is designed for efficient forgetting manipulation. This work represents a pioneering step towards the development of machine unlearning methods aimed at addressing privacy concerns in document analysis applications. Our code is publicly available at \url{https://github.com/leitro/MachineUnlearning-DocClassification}.
- Abstract(参考訳): 文書理解モデルは、最近、広範囲なユーザ文書の収集を活用して、顕著なパフォーマンスを示した。
しかし、文書には大量の個人情報が含まれていることが多いため、それらの使用はユーザーのプライバシーを脅かし、人間とAIサービスの信頼関係を弱める可能性がある。
これらの懸念に応えて、「忘れられる権利」を主張する法律が最近提案され、ユーザーはコンピュータシステムやニューラルネットワークモデルからプライベート情報を削除することを要求できる。
機械学習として知られる新しいアプローチが登場し、AIモデルを特定の種類のデータを忘れるようにしている。
本研究では,文書分類問題に対する機械学習について検討し,この領域を初めて研究した。
具体的には、遠隔サーバが十分に訓練されたモデルを持ち、少数のトレーニングデータしか持たない現実的なシナリオを考える。
この設定は、効率的に操作を忘れるように設計されている。
この研究は、文書分析アプリケーションにおけるプライバシー問題に対処することを目的とした機械学習手法の開発に向けた先駆的なステップである。
私たちのコードは、 \url{https://github.com/leitro/MachineUnlearning-DocClassification}で公開されています。
関連論文リスト
- A Review on Machine Unlearning [3.1168315477643245]
本稿では、機械学習モデルにおけるセキュリティとプライバシに関する詳細をレビューする。
まず、機械学習が日々の生活でユーザーのプライベートデータをどのように活用できるか、そしてこの問題で果たす役割について述べる。
次に,機械学習モデルにおけるセキュリティ脅威を記述することによって,機械学習の概念を導入する。
論文 参考訳(メタデータ) (2024-11-18T06:18:13Z) - Verification of Machine Unlearning is Fragile [48.71651033308842]
両タイプの検証戦略を回避できる2つの新しい非学習プロセスを導入する。
この研究は、機械学習検証の脆弱性と限界を強調し、機械学習の安全性に関するさらなる研究の道を開く。
論文 参考訳(メタデータ) (2024-08-01T21:37:10Z) - Federated Face Forgery Detection Learning with Personalized Representation [63.90408023506508]
ディープジェネレータ技術は、区別がつかない高品質のフェイクビデオを制作し、深刻な社会的脅威をもたらす可能性がある。
従来の偽造検出手法は、データを直接集中的に訓練する。
本稿では,個人化表現を用いた新しいフェデレーション顔偽造検出学習を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:20:30Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Privacy Side Channels in Machine Learning Systems [87.53240071195168]
プライバシサイドチャネルは、システムレベルのコンポーネントを利用してプライベート情報を抽出する攻撃である。
例えば、差分プライベートなトレーニングを適用する前にトレーニングデータを重複させることで、保証可能なプライバシ保証を完全に無効にするサイドチャネルが生成されることを示す。
さらに,学習データセットに含まれる秘密鍵を抽出するために,言語モデルを学習データ再生からブロックするシステムを利用することを示す。
論文 参考訳(メタデータ) (2023-09-11T16:49:05Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - Lightweight machine unlearning in neural network [2.406359246841227]
「忘れるべき権利」は、個人が同意に基づいて同意を取り下げる権利を有することを規定して、タイムリーに導入された。
この問題を解決するために、モデルがプライベート情報のすべてのメモリを消去できるマシンアンラーニングを提案する。
我々の方法は再訓練の15倍速い。
論文 参考訳(メタデータ) (2021-11-10T04:48:31Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z) - An Overview of Privacy in Machine Learning [2.8935588665357077]
この文書は、機械学習とプライバシに関する関連する概念に関する背景情報を提供する。
本稿では,個人および/または機密情報漏洩に関連する広範囲な攻撃を網羅する,敵対的モデルと設定について論じる。
論文 参考訳(メタデータ) (2020-05-18T13:05:17Z) - When Machine Unlearning Jeopardizes Privacy [25.167214892258567]
機械学習による意図しない情報漏洩について検討する。
高い性能を実現する新しいメンバーシップ推論攻撃を提案する。
我々の結果は、機械学習の実践的な実装におけるプライバシー保護の改善に役立つ。
論文 参考訳(メタデータ) (2020-05-05T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。