論文の概要: RVAFM: Re-parameterizing Vertical Attention Fusion Module for Handwritten Paragraph Text Recognition
- arxiv url: http://arxiv.org/abs/2503.03104v1
- Date: Wed, 05 Mar 2025 01:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:28.143408
- Title: RVAFM: Re-parameterizing Vertical Attention Fusion Module for Handwritten Paragraph Text Recognition
- Title(参考訳): RVAFM:手書きパラグラフテキスト認識のための垂直アテンション融合モジュールの再パラメータ化
- Authors: Jinhui Zheng, Zhiquan Liu, Yain-Whar Si, Jianqing Li, Xinyuan Zhang, Xiaofan Li, Haozhi Huang, Xueyuan Gong,
- Abstract要約: 我々はRe- parameterizing Vertical Attention Fusion Module (RVAFM)という新しいモジュールを提案する。
RVAFMは、トレーニングと推論の段階でモジュールの構造を分離する。
文字誤り率(CER)は4.44%、単語誤り率(WER)は14.37%である。
- 参考スコア(独自算出の注目度): 7.559954455228787
- License:
- Abstract: Handwritten Paragraph Text Recognition (HPTR) is a challenging task in Computer Vision, requiring the transformation of a paragraph text image, rich in handwritten text, into text encoding sequences. One of the most advanced models for this task is Vertical Attention Network (VAN), which utilizes a Vertical Attention Module (VAM) to implicitly segment paragraph text images into text lines, thereby reducing the difficulty of the recognition task. However, from a network structure perspective, VAM is a single-branch module, which is less effective in learning compared to multi-branch modules. In this paper, we propose a new module, named Re-parameterizing Vertical Attention Fusion Module (RVAFM), which incorporates structural re-parameterization techniques. RVAFM decouples the structure of the module during training and inference stages. During training, it uses a multi-branch structure for more effective learning, and during inference, it uses a single-branch structure for faster processing. The features learned by the multi-branch structure are fused into the single-branch structure through a special fusion method named Re-parameterization Fusion (RF) without any loss of information. As a result, we achieve a Character Error Rate (CER) of 4.44% and a Word Error Rate (WER) of 14.37% on the IAM paragraph-level test set. Additionally, the inference speed is slightly faster than VAN.
- Abstract(参考訳): 手書きパラグラフテキスト認識(HPTR)はコンピュータビジョンにおいて難しい課題であり、手書きテキストに富んだ段落のテキストイメージをテキストエンコーディングシーケンスに変換する必要がある。
このタスクの最も先進的なモデルの一つが、VAN(Vertical Attention Network)であり、VAM(Vertical Attention Module)を使用して、段落したテキスト画像をテキスト行に暗黙的に分割することで、認識タスクの難易度を低減する。
しかし、ネットワーク構造の観点からは、VAMはシングルブランチモジュールであり、マルチブランチモジュールに比べて学習にはあまり効果がない。
本稿では,構造的再パラメータ化手法を取り入れた新しいモジュールであるRe-parameterizing Vertical Attention Fusion Module (RVAFM)を提案する。
RVAFMは、トレーニングと推論の段階でモジュールの構造を分離する。
トレーニング中は、より効果的な学習にマルチブランチ構造を使用し、推論中は、より高速な処理にシングルブランチ構造を使用する。
マルチブランチ構造によって学習された特徴は、情報を失うことなく、Re-parameterization Fusion (RF)と呼ばれる特別な融合法によって単一のブランチ構造に融合される。
その結果,文字誤り率(CER)は4.44%,単語誤り率(WER)は14.37%となる。
さらに、推論速度はVANよりもわずかに速い。
関連論文リスト
- RFL: Simplifying Chemical Structure Recognition with Ring-Free Language [66.47173094346115]
化学構造を階層的に記述する新しいリング自由言語(RFL)を提案する。
RFLは複雑な分子構造を複数の部分に分解し、特異性と簡潔性の両方を保証する。
分子骨格と個々の環を段階的に予測する骨格生成モジュールからなる普遍的な分子骨格デコーダ(MSD)を提案する。
論文 参考訳(メタデータ) (2024-12-10T15:29:32Z) - Leveraging Structure Knowledge and Deep Models for the Detection of Abnormal Handwritten Text [19.05500901000957]
構造知識と手書きテキストの深層モデルを組み合わせた2段階検出アルゴリズムを提案する。
新たな半教師付きコントラストトレーニング戦略によって訓練された形状回帰ネットワークを導入し、文字間の位置関係を十分に活用する。
2つの手書きテキストデータセットを用いた実験により,提案手法は検出性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-15T14:57:10Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - FETNet: Feature Erasing and Transferring Network for Scene Text Removal [14.763369952265796]
Scene text removal(STR)タスクは、テキスト領域を削除し、画像の背景をスムーズに復元し、プライベート情報保護を目的とする。
既存のSTRメソッドの多くはエンコーダデコーダベースのCNNを採用しており、スキップ接続の機能を直接コピーしている。
STRの符号化された特徴を再構成する新しい特徴消去・伝達機構を提案する。
論文 参考訳(メタデータ) (2023-06-16T02:38:30Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。