論文の概要: Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions
- arxiv url: http://arxiv.org/abs/2208.08109v1
- Date: Wed, 17 Aug 2022 06:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:56:49.095832
- Title: Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions
- Title(参考訳): 変形可能な畳み込みによる手書き文字認識の現代化
- Authors: Silvia Cascianelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara
- Abstract要約: 自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
- 参考スコア(独自算出の注目度): 52.250269529057014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten Text Recognition (HTR) in free-layout pages is a challenging
image understanding task that can provide a relevant boost to the digitization
of handwritten documents and reuse of their content. The task becomes even more
challenging when dealing with historical documents due to the variability of
the writing style and degradation of the page quality. State-of-the-art HTR
approaches typically couple recurrent structures for sequence modeling with
Convolutional Neural Networks for visual feature extraction. Since
convolutional kernels are defined on fixed grids and focus on all input pixels
independently while moving over the input image, this strategy disregards the
fact that handwritten characters can vary in shape, scale, and orientation even
within the same document and that the ink pixels are more relevant than the
background ones. To cope with these specific HTR difficulties, we propose to
adopt deformable convolutions, which can deform depending on the input at hand
and better adapt to the geometric variations of the text. We design two
deformable architectures and conduct extensive experiments on both modern and
historical datasets. Experimental results confirm the suitability of deformable
convolutions for the HTR task.
- Abstract(参考訳): 自由レイアウトページにおける手書き文字認識(HTR)は、手書き文書のデジタル化とコンテンツの再利用に関連性のある画像理解タスクである。
文字スタイルの変化とページ品質の低下により、歴史的な文書を扱う場合、タスクはさらに困難になる。
最先端のHTRアプローチは通常、視覚的特徴抽出のための畳み込みニューラルネットワークによるシーケンスモデリングのための2つの繰り返し構造を持つ。
畳み込みカーネルは、固定格子上に定義され、入力画像上を移動しながら、全ての入力画素に独立に焦点を合わせているため、手書き文字が同じ文書内でも形状、スケール、方向が異なり、インク画素が背景画素よりも関連性があるという事実を無視している。
これらの特定のhtr問題に対処するため,我々は,手元の入力に応じて変形し,テキストの幾何学的変化にうまく適応できる変形可能な畳み込みを導入することを提案する。
変形可能な2つのアーキテクチャを設計し、近代的および歴史的両方のデータセットに対して広範な実験を行う。
HTRタスクに対する変形可能な畳み込みの適合性を検証する実験結果が得られた。
関連論文リスト
- DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - Representing Online Handwriting for Recognition in Large Vision-Language
Models [8.344510330567495]
本稿では,テキストとして,画像として,時間順のストローク列を含む新しいデジタルインク(オンライン手書き)のトークン化表現を提案する。
この表現は、最先端のオンライン筆跡認識器に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-02-23T13:11:10Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Content and Style Aware Generation of Text-line Images for Handwriting
Recognition [4.301658883577544]
視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成法を提案する。
本手法では,多彩な手書きスタイルの長いテキストラインサンプルを作成できる。
論文 参考訳(メタデータ) (2022-04-12T05:52:03Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Full Page Handwriting Recognition via Image to Sequence Extraction [0.0]
このモデルは、IAMデータセットのフルページ認識で新しい最新技術を実現します。
商用Webアプリケーションの一部として本番環境にデプロイされる。
論文 参考訳(メタデータ) (2021-03-11T04:37:29Z) - SPIN: Structure-Preserving Inner Offset Network for Scene Text
Recognition [48.676064155070556]
任意テキストの出現は、シーンテキスト認識タスクにおいて大きな課題となる。
我々は新しい学習可能な幾何学的非関連モジュールであるStructure-Preserving Inner Offset Network (SPIN)を導入する。
SPINは、ネットワーク内のソースデータの色操作を可能にする。
論文 参考訳(メタデータ) (2020-05-27T01:47:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。