論文の概要: Scene Text Recognition With Finer Grid Rectification
- arxiv url: http://arxiv.org/abs/2001.09389v1
- Date: Sun, 26 Jan 2020 02:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 19:35:58.209028
- Title: Scene Text Recognition With Finer Grid Rectification
- Title(参考訳): 有限格子整形によるシーンテキスト認識
- Authors: Gang Wang
- Abstract要約: 本稿では、より微細な修正モジュールと双方向の注意認識ネットワーク(Firbarn)から構成されるエンドツーエンドのトレーニング可能なモデルを提案する。
標準ベンチマークでの広範な評価の結果は、Firbarnの以前の業績、特に不規則なデータセットよりも優れていた。
- 参考スコア(独自算出の注目度): 6.598317412802175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Text Recognition is a challenging problem because of irregular styles
and various distortions. This paper proposed an end-to-end trainable model
consists of a finer rectification module and a bidirectional attentional
recognition network(Firbarn). The rectification module adopts finer grid to
rectify the distorted input image and the bidirectional decoder contains only
one decoding layer instead of two separated one. Firbarn can be trained in a
weak supervised way, only requiring the scene text images and the corresponding
word labels. With the flexible rectification and the novel bidirectional
decoder, the results of extensive evaluation on the standard benchmarks show
Firbarn outperforms previous works, especially on irregular datasets.
- Abstract(参考訳): 不規則なスタイルと様々な歪みのため、シーンテキスト認識は難しい問題である。
本稿では,細粒度整流モジュールと双方向注意認識ネットワーク(firbarn)からなるエンドツーエンド学習モデルを提案する。
整流モジュールは、歪んだ入力画像を整流するためにより微細なグリッドを採用し、双方向デコーダは、2つの分離された層ではなく1つの復号層だけを含む。
Firbarnは、シーンテキストイメージと対応する単語ラベルのみを必要とする、弱い教師付き方法でトレーニングすることができる。
フレキシブルな修正と新しい双方向デコーダにより、標準ベンチマークでの広範な評価の結果、特に不規則なデータセットにおいて、Firbarnは以前の研究よりも優れていた。
関連論文リスト
- Leveraging Structure Knowledge and Deep Models for the Detection of Abnormal Handwritten Text [19.05500901000957]
構造知識と手書きテキストの深層モデルを組み合わせた2段階検出アルゴリズムを提案する。
新たな半教師付きコントラストトレーニング戦略によって訓練された形状回帰ネットワークを導入し、文字間の位置関係を十分に活用する。
2つの手書きテキストデータセットを用いた実験により,提案手法は検出性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-15T14:57:10Z) - Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文 参考訳(メタデータ) (2023-08-29T05:44:00Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Portmanteauing Features for Scene Text Recognition [15.961450585164144]
State-of-the-artメソッドは、テキスト認識ネットワークに接続された修正ネットワークに依存している。
Portmanteau という単語にインスパイアされた Portmanteau 機能は、元のテキスト画像と修正画像の両方からの情報を含む機能である。
提案手法を6つのベンチマークで検証し,13の最先端手法と比較した。
論文 参考訳(メタデータ) (2022-11-09T17:14:14Z) - Cross Modification Attention Based Deliberation Model for Image
Captioning [11.897899189552318]
画像キャプションのためのユニバーサル2パスデコードフレームワークを提案する。
シングルパス復号モデルが最初に入力画像に応じてドラフトキャプションを生成する。
次に、検討モデルが研磨処理を行い、ドラフトキャプションを洗練して画像記述を改善する。
論文 参考訳(メタデータ) (2021-09-17T08:38:08Z) - I2C2W: Image-to-Character-to-Word Transformers for Accurate Scene Text
Recognition [68.95544645458882]
本稿では,シーンの様々なノイズに対して正確かつ耐性のある新しいシーンテキスト認識装置I2C2Wについて述べる。
i2c2wはイメージ・ツー・キャラクタモジュール(i2c)と文字・ワードモジュール(c2w)から構成される。
論文 参考訳(メタデータ) (2021-05-18T09:20:58Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - SOLD2: Self-supervised Occlusion-aware Line Description and Detection [95.8719432775724]
単一深層ネットワークにおける回線セグメントの最初の共同検出と記述について紹介します。
我々の手法は注釈付き行ラベルを必要としないため、任意のデータセットに一般化することができる。
複数のマルチビューデータセットにおいて,従来の行検出と記述方法に対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-04-07T19:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。