論文の概要: SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2005.10977v1
- Date: Fri, 22 May 2020 03:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 09:15:27.888340
- Title: SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text
Recognition
- Title(参考訳): SEED:シーンテキスト認識のためのセマンティックス強化エンコーダデコーダフレームワーク
- Authors: Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang
- Abstract要約: そこで我々は,低品質シーンテキストを頑健に認識するために,エンコーダ・デコーダ・フレームワークを改良したセマンティクスを提案する。
提案するフレームワークは、低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 17.191496890376197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition is a hot research topic in computer vision. Recently,
many recognition methods based on the encoder-decoder framework have been
proposed, and they can handle scene texts of perspective distortion and curve
shape. Nevertheless, they still face lots of challenges like image blur, uneven
illumination, and incomplete characters. We argue that most encoder-decoder
methods are based on local visual features without explicit global semantic
information. In this work, we propose a semantics enhanced encoder-decoder
framework to robustly recognize low-quality scene texts. The semantic
information is used both in the encoder module for supervision and in the
decoder module for initializing. In particular, the state-of-the art ASTER
method is integrated into the proposed framework as an exemplar. Extensive
experiments demonstrate that the proposed framework is more robust for
low-quality text images, and achieves state-of-the-art results on several
benchmark datasets.
- Abstract(参考訳): シーンテキスト認識はコンピュータビジョンにおけるホットな研究トピックである。
近年,エンコーダ・デコーダフレームワークに基づく認識手法が多数提案されており,遠近的歪みや曲線形状のシーンテキストを扱うことができる。
それでも、画像のぼやけ、不均一な照明、不完全な文字など、多くの課題に直面している。
ほとんどのエンコーダ・デコーダ法は明示的なグローバル意味情報を持たない局所的な視覚的特徴に基づいている。
本研究では,低品質シーンテキストを頑健に認識するためのセマンティックス拡張エンコーダデコーダフレームワークを提案する。
セマンティック情報は、監督用のエンコーダモジュールと初期化のためのデコーダモジュールの両方で使用される。
特に最先端の ASTER メソッドは,提案フレームワークに例証として組み込まれている。
広範な実験により、提案フレームワークは低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られることを示した。
関連論文リスト
- A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.15346678870160887]
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2024-09-27T06:12:31Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Representation and Correlation Enhanced Encoder-Decoder Framework for
Scene Text Recognition [10.496558786568672]
本稿では,これらの欠陥に対処し,性能ボトルネックを解消するRepresentation and correlation Enhanced-Decoder Framework(RCEED)を提案する。
エンコーダモジュールでは、局所視覚特徴、グローバルコンテキスト特徴、位置情報を整列して融合させ、小型の包括的特徴マップを生成する。
デコーダモジュールでは,シーン特徴空間とテキスト特徴空間の相関性を高めるために2つの手法が用いられている。
論文 参考訳(メタデータ) (2021-06-13T10:36:56Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - RobustScanner: Dynamically Enhancing Positional Clues for Robust Text
Recognition [31.62436356768889]
文字レベルのシーケンスデコーダは文脈情報だけでなく位置情報も利用することを示す。
本稿では,新たな位置強調分岐を提案し,シーンテキスト認識のためのデコーダアテンションモジュールと出力を動的に融合する。
提案手法はemphRobustScannerと呼ばれ、文脈と位置の手がかりの動的比で個々の文字を復号する。
論文 参考訳(メタデータ) (2020-07-15T08:37:40Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。