論文の概要: Preserving Privacy Without Compromising Accuracy: Machine Unlearning for Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2504.08616v2
- Date: Tue, 14 Oct 2025 21:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.39389
- Title: Preserving Privacy Without Compromising Accuracy: Machine Unlearning for Handwritten Text Recognition
- Title(参考訳): 精度を損なうことなくプライバシを保存する:手書き文字認識のための機械学習
- Authors: Lei Kang, Xuanshuo Fu, Lluis Gomez, Alicia Fornés, Ernest Valveny, Dimosthenis Karatzas,
- Abstract要約: 忘れられる権利のような規制は、完全なリトレーニングなしで機密性のあるトレースを削除するモデルを必要とする。
マルチヘッドトランスHTRモデルのための2段階のアンラーニングフレームワークを提案する。
また,書き手IDの均一な分布に従うことを強制するメソッドであるWriter-ID Confusion(WIC)も提案する。
- 参考スコア(独自算出の注目度): 12.022436561452766
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handwritten Text Recognition (HTR) is crucial for document digitization, but handwritten data can contain user-identifiable features, like unique writing styles, posing privacy risks. Regulations such as the ``right to be forgotten'' require models to remove these sensitive traces without full retraining. We introduce a practical encoder-only transformer baseline as a robust reference for future HTR research. Building on this, we propose a two-stage unlearning framework for multihead transformer HTR models. Our method combines neural pruning with machine unlearning applied to a writer classification head, ensuring sensitive information is removed while preserving the recognition head. We also present Writer-ID Confusion (WIC), a method that forces the forget set to follow a uniform distribution over writer identities, unlearning user-specific cues while maintaining text recognition performance. We compare WIC to Random Labeling, Fisher Forgetting, Amnesiac Unlearning, and DELETE within our prune-unlearn pipeline and consistently achieve better privacy and accuracy trade-offs. This is the first systematic study of machine unlearning for HTR. Using metrics such as Accuracy, Character Error Rate (CER), Word Error Rate (WER), and Membership Inference Attacks (MIA) on the IAM and CVL datasets, we demonstrate that our method achieves state-of-the-art or superior performance for effective unlearning. These experiments show that our approach effectively safeguards privacy without compromising accuracy, opening new directions for document analysis research. Our code is publicly available at https://github.com/leitro/WIC-WriterIDConfusion-MachineUnlearning.
- Abstract(参考訳): 手書きテキスト認識(HTR)は、文書のデジタル化には不可欠だが、手書きデータには、ユニークな書き込みスタイル、プライバシーリスクのポーズなど、ユーザ識別機能が含まれている。
例えば '`right to be forget'' のような規則では、完全な再トレーニングなしにこれらの機密性のあるトレースを削除するモデルが必要である。
我々は,将来のHTR研究のロバストな基準として,実用的なエンコーダのみのトランスフォーマーベースラインを導入する。
そこで本研究では,マルチヘッド変圧器HTRモデルのための2段階のアンラーニングフレームワークを提案する。
本手法は,ニューラルプルーニングと書き手分類ヘッドに適用した機械学習を組み合わせることで,認識ヘッドを保存しながら機密情報を確実に除去する。
また,テキスト認識性能を維持しながら,文字の同一性,未学習のユーザ固有の手がかりに対して,認識セットに一様分布を従わせる方法であるWriter-ID Confusion(WIC)を提案する。
We compare WIC to Random Labeling, Fisher Forgetting, Amnesiac Unlearning, and DELETE within our prune-unlearn pipeline, and consistent to improve privacy and accuracy trade-offs。
これは、HTRのためのマシンアンラーニングに関する最初の体系的な研究である。
IAMおよびCVLデータセットの精度、文字誤り率(CER)、単語誤り率(WER)、メンバシップ推論攻撃(MIA)などの指標を用いて、本手法が有効なアンラーニングのために最先端または優れた性能を達成することを示す。
これらの実験により,本手法は精度を損なうことなく効果的にプライバシを保護し,文書解析研究の新たな方向性を開拓することを示す。
私たちのコードはhttps://github.com/leitro/WIC-WriterIDConfusion-MachineUnlearningで公開されています。
関連論文リスト
- Differential Privacy in Machine Learning: From Symbolic AI to LLMs [49.1574468325115]
差別化プライバシは、プライバシーリスクを軽減するための正式なフレームワークを提供する。
単一のデータポイントの包含や除外がアルゴリズムの出力を著しく変更しないことを保証する。
論文 参考訳(メタデータ) (2025-06-13T11:30:35Z) - MetaWriter: Personalized Handwritten Text Recognition Using Meta-Learned Prompt Tuning [6.274266343486906]
従来の手書き文字認識法では、テスト時に書き手固有のパーソナライゼーションが欠如している。
本稿では、パーソナライズを即時チューニングとして定式化する効率的なフレームワークを提案する。
RIMES および IAM Handwriting Database ベンチマークに対する我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-26T20:26:16Z) - Privacy-Preserving Biometric Verification with Handwritten Random Digit String [49.77172854374479]
手書き認証は、何十年もの間、安定したアイデンティティ認証方法として存在してきた。
しかし、この技術は、署名などの手書きバイオメトリックスに個人情報が組み込まれているため、潜在的なプライバシー侵害のリスクがある。
プライバシ保護による手書き文字の検証にRandom Digit String (RDS) を用いることを提案する。
論文 参考訳(メタデータ) (2025-03-17T03:47:25Z) - Technical Report for the Forgotten-by-Design Project: Targeted Obfuscation for Machine Learning [0.03749861135832072]
本稿では、従来のデータ消去手法と対比して、AIシステム内でのRTBF(Right to be Forgotten)の概念について考察する。
Forgotten by Designは,インスタンス固有の難読化技術を統合した,プライバシ保護のための積極的なアプローチである。
CIFAR-10データセットを用いた実験では,モデル精度を維持しながら,少なくとも1桁のプライバシーリスクを低減できることが示されている。
論文 参考訳(メタデータ) (2025-01-20T15:07:59Z) - RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。
これらのデータポイントを消去する目的で、多くの機械学習アルゴリズムが提案されている。
本稿では,機械学習アルゴリズムが対象データ消去を行う能力を評価する,機械学習のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
総合的な機械学習評価ベンチマークであるMUSEを提案する。
人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文 参考訳(メタデータ) (2024-07-08T23:47:29Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - Federated Face Forgery Detection Learning with Personalized Representation [63.90408023506508]
ディープジェネレータ技術は、区別がつかない高品質のフェイクビデオを制作し、深刻な社会的脅威をもたらす可能性がある。
従来の偽造検出手法は、データを直接集中的に訓練する。
本稿では,個人化表現を用いた新しいフェデレーション顔偽造検出学習を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:20:30Z) - Machine Unlearning for Document Classification [14.71726430657162]
機械学習として知られる新しいアプローチが登場し、AIモデルを特定の種類のデータを忘れるようにしている。
この研究は、文書分析アプリケーションにおけるプライバシー問題に対処することを目的とした機械学習手法の開発に向けた先駆的なステップである。
論文 参考訳(メタデータ) (2024-04-29T18:16:13Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Independent Distribution Regularization for Private Graph Embedding [55.24441467292359]
グラフ埋め込みは属性推論攻撃の影響を受けやすいため、攻撃者は学習したグラフ埋め込みからプライベートノード属性を推測することができる。
これらの懸念に対処するため、プライバシ保護グラフ埋め込み手法が登場した。
独立分散ペナルティを正規化項として支援し, PVGAE(Private Variational Graph AutoEncoders)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-16T13:32:43Z) - CSSL-RHA: Contrastive Self-Supervised Learning for Robust Handwriting
Authentication [23.565017967901618]
本稿では,ロバスト手書き認証のためのコントラスト型自己監督学習フレームワークを提案する。
複雑だが重要な特徴を動的に学習し、作者の身元を正確に予測することができる。
提案モデルでは,データ改ざんや汚損などの異常な状況下においても,認証を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-07-18T02:20:46Z) - Unintended Memorization and Timing Attacks in Named Entity Recognition
Models [5.404816271595691]
ユーザ文書中の機密情報を識別するためのブラックボックスサービスとして,NERモデルが利用可能である場合について検討する。
spaCyから事前訓練されたNERモデルを更新することにより、これらのモデルに対する2つの異なるメンバシップ攻撃を実演する。
論文 参考訳(メタデータ) (2022-11-04T03:32:16Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。