論文の概要: Quo Vadis Handwritten Text Generation for Handwritten Text Recognition?
- arxiv url: http://arxiv.org/abs/2508.09936v1
- Date: Wed, 13 Aug 2025 16:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.964667
- Title: Quo Vadis Handwritten Text Generation for Handwritten Text Recognition?
- Title(参考訳): 手書き文字認識のためのQuo Vadis手書き文字生成法
- Authors: Vittorio Pippi, Konstantina Nikolaidou, Silvia Cascianelli, George Retsinas, Giorgos Sfikas, Rita Cucchiara, Marcus Liwicki,
- Abstract要約: 歴史写本のデジタル化は、手書き文字認識(HTR)システムに重大な課題をもたらす。
手書きテキスト生成(HTG)技術は、特定の手書きスタイルに適した合成データを生成する。
最先端の3種類のHTGモデルを比較し,HTR微調整への影響を評価する。
- 参考スコア(独自算出の注目度): 34.1205194877339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digitization of historical manuscripts presents significant challenges for Handwritten Text Recognition (HTR) systems, particularly when dealing with small, author-specific collections that diverge from the training data distributions. Handwritten Text Generation (HTG) techniques, which generate synthetic data tailored to specific handwriting styles, offer a promising solution to address these challenges. However, the effectiveness of various HTG models in enhancing HTR performance, especially in low-resource transcription settings, has not been thoroughly evaluated. In this work, we systematically compare three state-of-the-art styled HTG models (representing the generative adversarial, diffusion, and autoregressive paradigms for HTG) to assess their impact on HTR fine-tuning. We analyze how visual and linguistic characteristics of synthetic data influence fine-tuning outcomes and provide quantitative guidelines for selecting the most effective HTG model. The results of our analysis provide insights into the current capabilities of HTG methods and highlight key areas for further improvement in their application to low-resource HTR.
- Abstract(参考訳): 歴史写本のデジタル化は、手書き文字認識(HTR)システムにおいて、特に訓練データ分布から分岐する小さな著者固有のコレクションを扱う場合、重要な課題を提示する。
特定の手書きスタイルに合わせて合成データを生成する手書きテキスト生成(HTG)技術は、これらの課題に対処するための有望な解決策を提供する。
しかし、HTR性能向上における各種HTGモデルの有効性は、特に低リソースの転写設定において、十分に評価されていない。
本研究は,HTGモデル(HTGの生成的逆数,拡散,自己回帰のパラダイムを表現)を系統的に比較し,HTR微調整への影響を評価する。
合成データの視覚的特徴と言語的特徴が微調整結果に与える影響を分析し,最も有効なHTGモデルを選択するための定量的ガイドラインを提供する。
分析の結果,HTG法の現在の能力に関する知見が得られ,低リソースのHTRへのさらなる改善の鍵となる領域が浮かび上がっている。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - Rethinking HTG Evaluation: Bridging Generation and Recognition [7.398476020996681]
我々は、HTG評価に適した3つの測度、textHTG_textstyle $, $ textHTG_textOOV $を紹介します。
このメトリクスは、手書き文字認識と文字識別モデルの認識誤り/精度に依存している。
以上の結果から,我々のメトリクスは情報に富み,HTGの標準化された評価プロトコルの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-04T13:15:10Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - HWD: A Novel Evaluation Score for Styled Handwritten Text Generation [36.416044687373535]
スタイル付き手書きテキスト生成(Styled HTG)は文書解析において重要な課題であり、与えられた参照画像の書き起こしでテキスト画像を生成することを目的としている。
我々はHTG評価に適した手書き距離(HWD)を考案する。
特に、可変レンズ入力画像から手書きスタイルの特徴を抽出し、知覚距離を利用して手書きの微妙な幾何学的特徴を比較するように特別に訓練されたネットワークの特徴空間で機能する。
論文 参考訳(メタデータ) (2023-10-31T09:44:27Z) - How to Choose Pretrained Handwriting Recognition Models for Single
Writer Fine-Tuning [23.274139396706264]
近年のDeep Learning-based Handwriting Text Recognition (HTR) の進歩は、現代の写本や歴史文書に顕著な性能を持つモデルを生み出している。
これらのモデルは、言語、紙の支持、インク、著者の筆跡など、独特の特徴を持つ写本に適用した場合、同じパフォーマンスを得るのに苦労している。
本稿では,手書きテキスト生成モデルを用いて得られた,大規模で実際のベンチマークデータセットと合成データセットについて考察する。
我々は,5行の実際の微調整行数で,原稿を効果的に書き起こし可能なHTRモデルを得るための,そのようなデータの最も関連性の高い特徴を定量的に示す。
論文 参考訳(メタデータ) (2023-05-04T07:00:28Z) - A Study of Augmentation Methods for Handwritten Stenography Recognition [0.0]
我々は22の古典的拡張技法について研究し、そのほとんどは他のスクリプトのHTRによく使われている。
我々は,例えばランダム回転,シフト,スケーリングの範囲を含む拡張群を同定し,ステントグラフィー認識の応用に有用である。
論文 参考訳(メタデータ) (2023-03-05T20:06:19Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。