論文の概要: Parallel Scale-wise Attention Network for Effective Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2104.12076v1
- Date: Sun, 25 Apr 2021 06:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 15:00:36.685913
- Title: Parallel Scale-wise Attention Network for Effective Scene Text
Recognition
- Title(参考訳): 効果的なシーンテキスト認識のための並列型スケールワイズアテンションネットワーク
- Authors: Usman Sajid, Michael Chow, Jin Zhang, Taejoon Kim, Guanghui Wang
- Abstract要約: 多くの最先端の手法では、テキストアライメントのためにテキストエンコーダまたはデコーダで注意の仕組みを用いる。
複数スケールFEとVAを並列に実行するテキスト認識のための新しいマルチスケールおよびエンコーダベースの注意ネットワークを提案する。
- 参考スコア(独自算出の注目度): 23.567835573580847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper proposes a new text recognition network for scene-text images. Many
state-of-the-art methods employ the attention mechanism either in the text
encoder or decoder for the text alignment. Although the encoder-based attention
yields promising results, these schemes inherit noticeable limitations. They
perform the feature extraction (FE) and visual attention (VA) sequentially,
which bounds the attention mechanism to rely only on the FE final single-scale
output. Moreover, the utilization of the attention process is limited by only
applying it directly to the single scale feature-maps. To address these issues,
we propose a new multi-scale and encoder-based attention network for text
recognition that performs the multi-scale FE and VA in parallel. The
multi-scale channels also undergo regular fusion with each other to develop the
coordinated knowledge together. Quantitative evaluation and robustness analysis
on the standard benchmarks demonstrate that the proposed network outperforms
the state-of-the-art in most cases.
- Abstract(参考訳): 本稿では,シーンテキスト画像のための新しいテキスト認識ネットワークを提案する。
多くの最先端の手法では、テキストアライメントのためにテキストエンコーダまたはデコーダで注意の仕組みを用いる。
エンコーダベースの注意は有望な結果をもたらすが、これらのスキームは顕著な制限を継承する。
彼らは、特徴抽出(FE)と視覚的注意(VA)を順次実行し、注意機構をFE最後の単一スケール出力のみに依存するように拘束する。
さらに,注目プロセスの利用は,単一スケールの特徴マップに直接適用することで制限される。
そこで本研究では,マルチスケールfeとvaを並列に実行する,テキスト認識のためのマルチスケールおよびエンコーダベースのアテンションネットワークを提案する。
マルチスケールチャネルは互いに定期的に融合し、協調した知識を共に開発する。
標準ベンチマークの定量的評価とロバスト性解析は,提案手法が最先端技術よりも優れていることを示す。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition [22.13675752628]
本稿では,不規則なシーンテキスト認識のための新しいクロスモーダル融合ネットワーク(CMFN)を提案する。
CMFNは、位置自己拡張エンコーダ、視覚認識枝、反復意味認識枝から構成される。
実験により,提案したCMFNアルゴリズムは最先端のアルゴリズムに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-01-18T15:05:57Z) - Scene Text Recognition with Single-Point Decoding Network [15.905602374217962]
そこで本稿では,シーンテキスト認識のための効率的な注目のないシングルポイントデコーディングネットワーク(SPDN)を提案する。
提案手法は,各文字のキーポイントを正確に検出するだけでなく,冗長な計算も除去する。
論文 参考訳(メタデータ) (2022-09-05T11:43:13Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。