論文の概要: MetaHTR: Towards Writer-Adaptive Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2104.01876v1
- Date: Mon, 5 Apr 2021 12:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 20:54:09.355860
- Title: MetaHTR: Towards Writer-Adaptive Handwritten Text Recognition
- Title(参考訳): MetaHTR: 文字適応型手書き文字認識を目指して
- Authors: Ayan Kumar Bhunia, Shuvozit Ghose, Amandeep Kumar, Pinaki Nath
Chowdhury, Aneeshan Sain, Yi-Zhe Song
- Abstract要約: 我々は手書き文字認識の新しい手法を提案する。
新しいメタラーニングフレームワークを使い、新たなライターデータを利用する。
当社のフレームワークは、最先端のHTRモデルの上に簡単に実装できます。
- 参考スコア(独自算出の注目度): 36.12001394921506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten Text Recognition (HTR) remains a challenging problem to date,
largely due to the varying writing styles that exist amongst us. Prior works
however generally operate with the assumption that there is a limited number of
styles, most of which have already been captured by existing datasets. In this
paper, we take a completely different perspective -- we work on the assumption
that there is always a new style that is drastically different, and that we
will only have very limited data during testing to perform adaptation. This
results in a commercially viable solution -- the model has the best shot at
adaptation being exposed to the new style, and the few samples nature makes it
practical to implement. We achieve this via a novel meta-learning framework
which exploits additional new-writer data through a support set, and outputs a
writer-adapted model via single gradient step update, all during inference. We
discover and leverage on the important insight that there exists few key
characters per writer that exhibit relatively larger style discrepancies. For
that, we additionally propose to meta-learn instance specific weights for a
character-wise cross-entropy loss, which is specifically designed to work with
the sequential nature of text data. Our writer-adaptive MetaHTR framework can
be easily implemented on the top of most state-of-the-art HTR models.
Experiments show an average performance gain of 5-7% can be obtained by
observing very few new style data. We further demonstrate via a set of ablative
studies the advantage of our meta design when compared with alternative
adaption mechanisms.
- Abstract(参考訳): 手書きテキスト認識(htr)はこれまでも難解な問題であり、その主な原因は、私たちの間で存在する様々な書き方にある。
しかしながら、先行作品は一般的には限られた数のスタイルが存在するという仮定で動作し、そのほとんどは既存のデータセットによって既にキャプチャされている。
本稿では、まったく異なる視点を取ります -- 私たちは、常に大きく異なる新しいスタイルがあり、適応を実行するためにテスト中に非常に限られたデータしか持たないという仮定に取り組んでいます。
この結果、商業的に実行可能なソリューションとなり、モデルは新しいスタイルに適応するのに最適なショットを持ち、少数のサンプルの性質によって実装が現実的になる。
サポートセットを通じて新たな書き手データを活用する新しいメタラーニングフレームワークによってこれを達成し,単一勾配ステップ更新による書き手適応モデルを推論時に出力する。
著者1人当たりのキーキャラクタが比較的大きなスタイルの相違を示すことは少ないという重要な洞察を発見し、活用する。
さらに,テキストデータのシーケンシャルな性質に特化して設計された文字間クロスエントロピー損失に対して,メタ学習インスタンス固有の重み付けを提案する。
我々のライター適応型MetaHTRフレームワークは、ほとんどの最先端HTRモデルの上位に容易に実装できる。
実験によると、新しいスタイルのデータをほとんど観測することで、平均5~7%のパフォーマンス向上が得られる。
さらに,メタデザインのメリットを,代替適応機構と比較する際の,一連のアブレーション研究を通じて実証する。
関連論文リスト
- DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。
本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2024-07-18T10:01:09Z) - How to Choose Pretrained Handwriting Recognition Models for Single
Writer Fine-Tuning [23.274139396706264]
近年のDeep Learning-based Handwriting Text Recognition (HTR) の進歩は、現代の写本や歴史文書に顕著な性能を持つモデルを生み出している。
これらのモデルは、言語、紙の支持、インク、著者の筆跡など、独特の特徴を持つ写本に適用した場合、同じパフォーマンスを得るのに苦労している。
本稿では,手書きテキスト生成モデルを用いて得られた,大規模で実際のベンチマークデータセットと合成データセットについて考察する。
我々は,5行の実際の微調整行数で,原稿を効果的に書き起こし可能なHTRモデルを得るための,そのようなデータの最も関連性の高い特徴を定量的に示す。
論文 参考訳(メタデータ) (2023-05-04T07:00:28Z) - Towards Writing Style Adaptation in Handwriting Recognition [0.0]
著者のアイデンティティを付加的な入力として捉えるために,著者に依存したパラメータを持つモデルについて検討する。
本稿では,学習した分割の埋め込みを前提とした適応型インスタンス正規化層であるWriter Style Block (WSB)を提案する。
著者に依存したシナリオでは,本手法はWSBのないベースラインよりも優れており,新たなライターへの埋め込みを推定することが可能であることを示す。
論文 参考訳(メタデータ) (2023-02-13T12:36:17Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - DeepStyle: User Style Embedding for Authorship Attribution of Short
Texts [57.503904346336384]
オーサシップアトリビューション(AA)は、多くのアプリケーションで重要で広く研究されている研究トピックです。
近年の研究では、深層学習がAAタスクの精度を大幅に向上させることが示されている。
本稿では,ユーザの健全な書き込みスタイルの表現を学習する新しい埋め込み型フレームワークであるDeepStyleを提案する。
論文 参考訳(メタデータ) (2021-03-14T15:56:37Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z) - ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation [0.9542023122304099]
ScrabbleGANは手書きテキストイメージを半教師付きで合成する手法である。
ScrabbleGANは任意の長さの単語の画像を生成する新しい生成モデルに依存している。
論文 参考訳(メタデータ) (2020-03-23T21:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。