論文の概要: Preserving Privacy Without Compromising Accuracy: Machine Unlearning for Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2504.08616v1
- Date: Fri, 11 Apr 2025 15:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:40.284960
- Title: Preserving Privacy Without Compromising Accuracy: Machine Unlearning for Handwritten Text Recognition
- Title(参考訳): 精度を損なうことなくプライバシを保存する:手書き文字認識のための機械学習
- Authors: Lei Kang, Xuanshuo Fu, Lluis Gomez, Alicia Fornés, Ernest Valveny, Dimosthenis Karatzas,
- Abstract要約: 手書き文字認識(HTR)は文書解析とデジタル化に不可欠である。
忘れられる権利のような法律は、訓練されたモデルから機密情報を流出させる方法の必要性を強調している。
我々は,マルチヘッドトランスを用いたHTRモデルのための新しい2段階のアンラーニング戦略を導入し,プルーニングとランダムラベリングを統合した。
- 参考スコア(独自算出の注目度): 12.228611784356412
- License:
- Abstract: Handwritten Text Recognition (HTR) is essential for document analysis and digitization. However, handwritten data often contains user-identifiable information, such as unique handwriting styles and personal lexicon choices, which can compromise privacy and erode trust in AI services. Legislation like the ``right to be forgotten'' underscores the necessity for methods that can expunge sensitive information from trained models. Machine unlearning addresses this by selectively removing specific data from models without necessitating complete retraining. Yet, it frequently encounters a privacy-accuracy tradeoff, where safeguarding privacy leads to diminished model performance. In this paper, we introduce a novel two-stage unlearning strategy for a multi-head transformer-based HTR model, integrating pruning and random labeling. Our proposed method utilizes a writer classification head both as an indicator and a trigger for unlearning, while maintaining the efficacy of the recognition head. To our knowledge, this represents the first comprehensive exploration of machine unlearning within HTR tasks. We further employ Membership Inference Attacks (MIA) to evaluate the effectiveness of unlearning user-identifiable information. Extensive experiments demonstrate that our approach effectively preserves privacy while maintaining model accuracy, paving the way for new research directions in the document analysis community. Our code will be publicly available upon acceptance.
- Abstract(参考訳): 手書き文字認識(HTR)は文書解析とデジタル化に不可欠である。
しかし、手書きデータには、独自の手書きスタイルや個人の辞書選択など、ユーザ識別可能な情報が含まれており、プライバシとAIサービスの信頼を損なう可能性がある。
のような法律は、訓練されたモデルからセンシティブな情報を吐き出す方法の必要性を強調している。
マシンアンラーニングは、完全な再トレーニングを必要とせずに、モデルから特定のデータを選択的に削除することで、この問題に対処する。
しかし、プライバシの保護がモデルパフォーマンスの低下につながるような、プライバシの正確なトレードオフに頻繁に遭遇する。
本稿では,マルチヘッドトランスを用いたHTRモデルに対して,プルーニングとランダムラベリングを統合した2段階アンラーニング手法を提案する。
提案手法は,認識ヘッドの有効性を維持しつつ,著者分類ヘッドを指標および未学習の引き金として利用する。
我々の知る限り、これはHTRタスク内での機械学習の総合的な探索である。
我々はさらに、未学習のユーザ識別情報の有効性を評価するために、メンバーシップ推論攻撃(MIA)を採用する。
広範にわたる実験により,本手法はモデル精度を維持しながら効果的にプライバシを保ち,文書分析コミュニティにおける新たな研究方向の道を開くことを実証した。
私たちのコードは受理時に公開されます。
関連論文リスト
- Technical Report for the Forgotten-by-Design Project: Targeted Obfuscation for Machine Learning [0.03749861135832072]
本稿では、従来のデータ消去手法と対比して、AIシステム内でのRTBF(Right to be Forgotten)の概念について考察する。
Forgotten by Designは,インスタンス固有の難読化技術を統合した,プライバシ保護のための積極的なアプローチである。
CIFAR-10データセットを用いた実験では,モデル精度を維持しながら,少なくとも1桁のプライバシーリスクを低減できることが示されている。
論文 参考訳(メタデータ) (2025-01-20T15:07:59Z) - MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
総合的な機械学習評価ベンチマークであるMUSEを提案する。
人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文 参考訳(メタデータ) (2024-07-08T23:47:29Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - Federated Face Forgery Detection Learning with Personalized Representation [63.90408023506508]
ディープジェネレータ技術は、区別がつかない高品質のフェイクビデオを制作し、深刻な社会的脅威をもたらす可能性がある。
従来の偽造検出手法は、データを直接集中的に訓練する。
本稿では,個人化表現を用いた新しいフェデレーション顔偽造検出学習を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:20:30Z) - Machine Unlearning for Document Classification [14.71726430657162]
機械学習として知られる新しいアプローチが登場し、AIモデルを特定の種類のデータを忘れるようにしている。
この研究は、文書分析アプリケーションにおけるプライバシー問題に対処することを目的とした機械学習手法の開発に向けた先駆的なステップである。
論文 参考訳(メタデータ) (2024-04-29T18:16:13Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Independent Distribution Regularization for Private Graph Embedding [55.24441467292359]
グラフ埋め込みは属性推論攻撃の影響を受けやすいため、攻撃者は学習したグラフ埋め込みからプライベートノード属性を推測することができる。
これらの懸念に対処するため、プライバシ保護グラフ埋め込み手法が登場した。
独立分散ペナルティを正規化項として支援し, PVGAE(Private Variational Graph AutoEncoders)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-16T13:32:43Z) - CSSL-RHA: Contrastive Self-Supervised Learning for Robust Handwriting
Authentication [23.565017967901618]
本稿では,ロバスト手書き認証のためのコントラスト型自己監督学習フレームワークを提案する。
複雑だが重要な特徴を動的に学習し、作者の身元を正確に予測することができる。
提案モデルでは,データ改ざんや汚損などの異常な状況下においても,認証を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-07-18T02:20:46Z) - Unintended Memorization and Timing Attacks in Named Entity Recognition
Models [5.404816271595691]
ユーザ文書中の機密情報を識別するためのブラックボックスサービスとして,NERモデルが利用可能である場合について検討する。
spaCyから事前訓練されたNERモデルを更新することにより、これらのモデルに対する2つの異なるメンバシップ攻撃を実演する。
論文 参考訳(メタデータ) (2022-11-04T03:32:16Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。