論文の概要: Preserving Privacy Without Compromising Accuracy: Machine Unlearning for Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2504.08616v2
- Date: Tue, 14 Oct 2025 21:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.39389
- Title: Preserving Privacy Without Compromising Accuracy: Machine Unlearning for Handwritten Text Recognition
- Title(参考訳): 精度を損なうことなくプライバシを保存する:手書き文字認識のための機械学習
- Authors: Lei Kang, Xuanshuo Fu, Lluis Gomez, Alicia Fornés, Ernest Valveny, Dimosthenis Karatzas,
- Abstract要約: 忘れられる権利のような規制は、完全なリトレーニングなしで機密性のあるトレースを削除するモデルを必要とする。
マルチヘッドトランスHTRモデルのための2段階のアンラーニングフレームワークを提案する。
また,書き手IDの均一な分布に従うことを強制するメソッドであるWriter-ID Confusion(WIC)も提案する。
- 参考スコア(独自算出の注目度): 12.022436561452766
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handwritten Text Recognition (HTR) is crucial for document digitization, but handwritten data can contain user-identifiable features, like unique writing styles, posing privacy risks. Regulations such as the ``right to be forgotten'' require models to remove these sensitive traces without full retraining. We introduce a practical encoder-only transformer baseline as a robust reference for future HTR research. Building on this, we propose a two-stage unlearning framework for multihead transformer HTR models. Our method combines neural pruning with machine unlearning applied to a writer classification head, ensuring sensitive information is removed while preserving the recognition head. We also present Writer-ID Confusion (WIC), a method that forces the forget set to follow a uniform distribution over writer identities, unlearning user-specific cues while maintaining text recognition performance. We compare WIC to Random Labeling, Fisher Forgetting, Amnesiac Unlearning, and DELETE within our prune-unlearn pipeline and consistently achieve better privacy and accuracy trade-offs. This is the first systematic study of machine unlearning for HTR. Using metrics such as Accuracy, Character Error Rate (CER), Word Error Rate (WER), and Membership Inference Attacks (MIA) on the IAM and CVL datasets, we demonstrate that our method achieves state-of-the-art or superior performance for effective unlearning. These experiments show that our approach effectively safeguards privacy without compromising accuracy, opening new directions for document analysis research. Our code is publicly available at https://github.com/leitro/WIC-WriterIDConfusion-MachineUnlearning.
- Abstract(参考訳): 手書きテキスト認識(HTR)は、文書のデジタル化には不可欠だが、手書きデータには、ユニークな書き込みスタイル、プライバシーリスクのポーズなど、ユーザ識別機能が含まれている。
例えば '`right to be forget'' のような規則では、完全な再トレーニングなしにこれらの機密性のあるトレースを削除するモデルが必要である。
我々は,将来のHTR研究のロバストな基準として,実用的なエンコーダのみのトランスフォーマーベースラインを導入する。
そこで本研究では,マルチヘッド変圧器HTRモデルのための2段階のアンラーニングフレームワークを提案する。
本手法は,ニューラルプルーニングと書き手分類ヘッドに適用した機械学習を組み合わせることで,認識ヘッドを保存しながら機密情報を確実に除去する。
また,テキスト認識性能を維持しながら,文字の同一性,未学習のユーザ固有の手がかりに対して,認識セットに一様分布を従わせる方法であるWriter-ID Confusion(WIC)を提案する。
We compare WIC to Random Labeling, Fisher Forgetting, Amnesiac Unlearning, and DELETE within our prune-unlearn pipeline, and consistent to improve privacy and accuracy trade-offs。
これは、HTRのためのマシンアンラーニングに関する最初の体系的な研究である。
IAMおよびCVLデータセットの精度、文字誤り率(CER)、単語誤り率(WER)、メンバシップ推論攻撃(MIA)などの指標を用いて、本手法が有効なアンラーニングのために最先端または優れた性能を達成することを示す。
これらの実験により,本手法は精度を損なうことなく効果的にプライバシを保護し,文書解析研究の新たな方向性を開拓することを示す。
私たちのコードはhttps://github.com/leitro/WIC-WriterIDConfusion-MachineUnlearningで公開されています。
関連論文リスト
- Enhancing IMU-Based Online Handwriting Recognition via Contrastive Learning with Zero Inference Overhead [4.519836503888727]
推論コストを増大させることなく特徴表現と認識精度を向上させるためのトレーニングフレームワークを提案する。
ECHWRは、トレーニングフェーズ中にセンサー信号とセマンティックテキストの埋め込みを整列する一時的な補助ブランチを使用する。
OnHW-Words500データセットの評価によると、ECHWRは最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-04T13:44:54Z) - LLM Unlearning on Noisy Forget Sets: A Study of Incomplete, Rewritten, and Watermarked Data [69.5099112089508]
大規模言語モデル(LLM)は、顕著な生成能力を示すが、機密データを記憶することで倫理的およびセキュリティ上の懸念を引き起こす。
この研究は、ノイズのある忘れセットと呼ばれる、摂動的または低忠実な忘れデータの下での未学習に関する最初の研究を提示する。
コアセマンティック信号が保存されている場合、未学習は摂動に対して驚くほど堅牢である。
論文 参考訳(メタデータ) (2025-10-10T05:10:49Z) - Differential Privacy in Machine Learning: From Symbolic AI to LLMs [49.1574468325115]
差別化プライバシは、プライバシーリスクを軽減するための正式なフレームワークを提供する。
単一のデータポイントの包含や除外がアルゴリズムの出力を著しく変更しないことを保証する。
論文 参考訳(メタデータ) (2025-06-13T11:30:35Z) - MetaWriter: Personalized Handwritten Text Recognition Using Meta-Learned Prompt Tuning [6.274266343486906]
従来の手書き文字認識法では、テスト時に書き手固有のパーソナライゼーションが欠如している。
本稿では、パーソナライズを即時チューニングとして定式化する効率的なフレームワークを提案する。
RIMES および IAM Handwriting Database ベンチマークに対する我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-26T20:26:16Z) - Privacy-Preserving Biometric Verification with Handwritten Random Digit String [49.77172854374479]
手書き認証は、何十年もの間、安定したアイデンティティ認証方法として存在してきた。
しかし、この技術は、署名などの手書きバイオメトリックスに個人情報が組み込まれているため、潜在的なプライバシー侵害のリスクがある。
プライバシ保護による手書き文字の検証にRandom Digit String (RDS) を用いることを提案する。
論文 参考訳(メタデータ) (2025-03-17T03:47:25Z) - Technical Report for the Forgotten-by-Design Project: Targeted Obfuscation for Machine Learning [0.03749861135832072]
本稿では、従来のデータ消去手法と対比して、AIシステム内でのRTBF(Right to be Forgotten)の概念について考察する。
Forgotten by Designは,インスタンス固有の難読化技術を統合した,プライバシ保護のための積極的なアプローチである。
CIFAR-10データセットを用いた実験では,モデル精度を維持しながら,少なくとも1桁のプライバシーリスクを低減できることが示されている。
論文 参考訳(メタデータ) (2025-01-20T15:07:59Z) - RESTOR: Knowledge Recovery through Machine Unlearning [71.75834077528305]
Webスケールコーパスでトレーニングされた大規模な言語モデルは、望ましくないデータポイントを記憶することができる。
これらのデータポイントを消去する目的で、多くの機械学習アルゴリズムが提案されている。
本稿では,機械学習アルゴリズムが対象データ消去を行う能力を評価する,機械学習のためのRESTORフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T20:54:35Z) - MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。
総合的な機械学習評価ベンチマークであるMUSEを提案する。
人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文 参考訳(メタデータ) (2024-07-08T23:47:29Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - Federated Face Forgery Detection Learning with Personalized Representation [63.90408023506508]
ディープジェネレータ技術は、区別がつかない高品質のフェイクビデオを制作し、深刻な社会的脅威をもたらす可能性がある。
従来の偽造検出手法は、データを直接集中的に訓練する。
本稿では,個人化表現を用いた新しいフェデレーション顔偽造検出学習を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:20:30Z) - Classification of Non-native Handwritten Characters Using Convolutional Neural Network [0.0]
非ネイティブユーザによる英語文字の分類は、カスタマイズされたCNNモデルを提案することによって行われる。
我々はこのCNNを、手書きの独立した英語文字データセットと呼ばれる新しいデータセットでトレーニングする。
5つの畳み込み層と1つの隠蔽層を持つモデルでは、文字認識精度において最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T21:08:07Z) - Machine Unlearning for Document Classification [14.71726430657162]
機械学習として知られる新しいアプローチが登場し、AIモデルを特定の種類のデータを忘れるようにしている。
この研究は、文書分析アプリケーションにおけるプライバシー問題に対処することを目的とした機械学習手法の開発に向けた先駆的なステップである。
論文 参考訳(メタデータ) (2024-04-29T18:16:13Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Independent Distribution Regularization for Private Graph Embedding [55.24441467292359]
グラフ埋め込みは属性推論攻撃の影響を受けやすいため、攻撃者は学習したグラフ埋め込みからプライベートノード属性を推測することができる。
これらの懸念に対処するため、プライバシ保護グラフ埋め込み手法が登場した。
独立分散ペナルティを正規化項として支援し, PVGAE(Private Variational Graph AutoEncoders)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-16T13:32:43Z) - CSSL-RHA: Contrastive Self-Supervised Learning for Robust Handwriting
Authentication [23.565017967901618]
本稿では,ロバスト手書き認証のためのコントラスト型自己監督学習フレームワークを提案する。
複雑だが重要な特徴を動的に学習し、作者の身元を正確に予測することができる。
提案モデルでは,データ改ざんや汚損などの異常な状況下においても,認証を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-07-18T02:20:46Z) - Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition [0.840835093659811]
本研究は,手書きペラリアの自動検出と認識のためのエンドツーエンドフレームワークを提案する。
データ拡張と転送学習を使用して、トレーニングデータの不足を克服する。
このフレームワークの有効性はスウェーデンのウプサラ大学図書館で発見された初期の書籍コレクションのデータから実証的に評価されている。
論文 参考訳(メタデータ) (2023-03-10T14:00:53Z) - Pre-trained Encoders in Self-Supervised Learning Improve Secure and
Privacy-preserving Supervised Learning [63.45532264721498]
自己教師付き学習は、ラベルのないデータを使ってエンコーダを事前訓練するための新しいテクニックである。
我々は、事前訓練されたエンコーダがセキュア・プライバシ保護型学習アルゴリズムの限界に対処できるかどうかを理解するための、最初の体系的、原則的な測定研究を行う。
論文 参考訳(メタデータ) (2022-12-06T21:35:35Z) - Unintended Memorization and Timing Attacks in Named Entity Recognition
Models [5.404816271595691]
ユーザ文書中の機密情報を識別するためのブラックボックスサービスとして,NERモデルが利用可能である場合について検討する。
spaCyから事前訓練されたNERモデルを更新することにより、これらのモデルに対する2つの異なるメンバシップ攻撃を実演する。
論文 参考訳(メタデータ) (2022-11-04T03:32:16Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。