論文の概要: MetaWriter: Personalized Handwritten Text Recognition Using Meta-Learned Prompt Tuning
- arxiv url: http://arxiv.org/abs/2505.20513v1
- Date: Mon, 26 May 2025 20:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.289015
- Title: MetaWriter: Personalized Handwritten Text Recognition Using Meta-Learned Prompt Tuning
- Title(参考訳): MetaWriter: Meta-Learned Prompt Tuning を用いた手書き文字認識
- Authors: Wenhao Gu, Li Gu, Ching Yee Suen, Yang Wang,
- Abstract要約: 従来の手書き文字認識法では、テスト時に書き手固有のパーソナライゼーションが欠如している。
本稿では、パーソナライズを即時チューニングとして定式化する効率的なフレームワークを提案する。
RIMES および IAM Handwriting Database ベンチマークに対する我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 6.274266343486906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in handwritten text recognition (HTR) have enabled the effective conversion of handwritten text to digital formats. However, achieving robust recognition across diverse writing styles remains challenging. Traditional HTR methods lack writer-specific personalization at test time due to limitations in model architecture and training strategies. Existing attempts to bridge this gap, through gradient-based meta-learning, still require labeled examples and suffer from parameter-inefficient fine-tuning, leading to substantial computational and memory overhead. To overcome these challenges, we propose an efficient framework that formulates personalization as prompt tuning, incorporating an auxiliary image reconstruction task with a self-supervised loss to guide prompt adaptation with unlabeled test-time examples. To ensure self-supervised loss effectively minimizes text recognition error, we leverage meta-learning to learn the optimal initialization of the prompts. As a result, our method allows the model to efficiently capture unique writing styles by updating less than 1% of its parameters and eliminating the need for time-intensive annotation processes. We validate our approach on the RIMES and IAM Handwriting Database benchmarks, where it consistently outperforms previous state-of-the-art methods while using 20x fewer parameters. We believe this represents a significant advancement in personalized handwritten text recognition, paving the way for more reliable and practical deployment in resource-constrained scenarios.
- Abstract(参考訳): 近年,手書きテキスト認識(HTR)の進歩により,手書きテキストのデジタルフォーマットへの効果的な変換が可能になった。
しかし、多彩な書体にまたがる堅牢な認識を達成することは依然として困難である。
従来のHTRメソッドでは、モデルアーキテクチャやトレーニング戦略の制限により、テスト時にライター固有のパーソナライズが欠如している。
勾配に基づくメタ学習を通じて、このギャップを埋めようとする既存の試みは、まだラベル付き例を必要としており、パラメータ非効率な微調整に悩まされており、計算とメモリのオーバーヘッドが大幅に増大する。
これらの課題を克服するために,自己監督的損失を伴う画像再構成タスクを組み込むことで,個人化を即時チューニングとして定式化する効率的なフレームワークを提案する。
自己教師による損失を効果的に最小化するために,メタラーニングを活用し,プロンプトの最適初期化を学習する。
その結果、パラメータの1%未満を更新し、時間集約的なアノテーション処理を不要にすることで、モデルが独自の書き込みスタイルを効率的に捉えることが可能となった。
RIMES および IAM Handwriting Database ベンチマークに対する我々のアプローチを検証する。
これは、パーソナライズされた手書き文字認識の大幅な進歩であり、リソース制約のあるシナリオにおいて、より信頼性と実践的な展開の道を開くものだと考えています。
関連論文リスト
- Preserving Privacy Without Compromising Accuracy: Machine Unlearning for Handwritten Text Recognition [12.228611784356412]
手書き文字認識(HTR)は文書解析とデジタル化に不可欠である。
忘れられる権利のような法律は、訓練されたモデルから機密情報を流出させる方法の必要性を強調している。
我々は,マルチヘッドトランスを用いたHTRモデルのための新しい2段階のアンラーニング戦略を導入し,プルーニングとランダムラベリングを統合した。
論文 参考訳(メタデータ) (2025-04-11T15:21:12Z) - DocTTT: Test-Time Training for Handwritten Document Recognition Using Meta-Auxiliary Learning [7.036629164442979]
これらの課題に対処するためにDocTTTフレームワークを導入します。
このアプローチの主な革新は、テスト中に各特定の入力にモデルを適応させるために、テストタイムトレーニングを使用することです。
メタ学習と自己教師型マスクオートエンコーダ(MAE)を組み合わせたメタ補助学習手法を提案する。
論文 参考訳(メタデータ) (2025-01-22T14:18:47Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z) - Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and
Document Enhancement [8.428866479825736]
Text-DIAEは、テキスト認識(手書きまたはシーンテキスト)と文書画像強調という2つの課題を解決することを目的としている。
ラベル付きデータを使わずに事前学習時に最適化すべき学習目標として、3つのプレテキストタスクを定義した。
本手法は,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-09T15:44:36Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。