論文の概要: SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2005.10977v1
- Date: Fri, 22 May 2020 03:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 09:15:27.888340
- Title: SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text
Recognition
- Title(参考訳): SEED:シーンテキスト認識のためのセマンティックス強化エンコーダデコーダフレームワーク
- Authors: Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang
- Abstract要約: そこで我々は,低品質シーンテキストを頑健に認識するために,エンコーダ・デコーダ・フレームワークを改良したセマンティクスを提案する。
提案するフレームワークは、低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 17.191496890376197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition is a hot research topic in computer vision. Recently,
many recognition methods based on the encoder-decoder framework have been
proposed, and they can handle scene texts of perspective distortion and curve
shape. Nevertheless, they still face lots of challenges like image blur, uneven
illumination, and incomplete characters. We argue that most encoder-decoder
methods are based on local visual features without explicit global semantic
information. In this work, we propose a semantics enhanced encoder-decoder
framework to robustly recognize low-quality scene texts. The semantic
information is used both in the encoder module for supervision and in the
decoder module for initializing. In particular, the state-of-the art ASTER
method is integrated into the proposed framework as an exemplar. Extensive
experiments demonstrate that the proposed framework is more robust for
low-quality text images, and achieves state-of-the-art results on several
benchmark datasets.
- Abstract(参考訳): シーンテキスト認識はコンピュータビジョンにおけるホットな研究トピックである。
近年,エンコーダ・デコーダフレームワークに基づく認識手法が多数提案されており,遠近的歪みや曲線形状のシーンテキストを扱うことができる。
それでも、画像のぼやけ、不均一な照明、不完全な文字など、多くの課題に直面している。
ほとんどのエンコーダ・デコーダ法は明示的なグローバル意味情報を持たない局所的な視覚的特徴に基づいている。
本研究では,低品質シーンテキストを頑健に認識するためのセマンティックス拡張エンコーダデコーダフレームワークを提案する。
セマンティック情報は、監督用のエンコーダモジュールと初期化のためのデコーダモジュールの両方で使用される。
特に最先端の ASTER メソッドは,提案フレームワークに例証として組み込まれている。
広範な実験により、提案フレームワークは低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られることを示した。
関連論文リスト
- CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition [22.13675752628]
本稿では,不規則なシーンテキスト認識のための新しいクロスモーダル融合ネットワーク(CMFN)を提案する。
CMFNは、位置自己拡張エンコーダ、視覚認識枝、反復意味認識枝から構成される。
実験により,提案したCMFNアルゴリズムは最先端のアルゴリズムに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-01-18T15:05:57Z) - DTrOCR: Decoder-only Transformer for Optical Character Recognition [0.0]
我々は,光文字認識用デコーダのみ変換器(DTrOCR)と呼ばれる,テキスト認識のためのよりシンプルで効果的な方法を提案する。
この方法は、デコーダのみのトランスフォーマーを使用して、大きなコーパスで事前訓練された生成言語モデルを活用する。
我々の実験では、DTrOCRは、英語と中国語の両方で印刷、手書き、シーンテキストの認識において、最先端の手法よりもはるかに優れていることを示した。
論文 参考訳(メタデータ) (2023-08-30T12:37:03Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Representation and Correlation Enhanced Encoder-Decoder Framework for
Scene Text Recognition [10.496558786568672]
本稿では,これらの欠陥に対処し,性能ボトルネックを解消するRepresentation and correlation Enhanced-Decoder Framework(RCEED)を提案する。
エンコーダモジュールでは、局所視覚特徴、グローバルコンテキスト特徴、位置情報を整列して融合させ、小型の包括的特徴マップを生成する。
デコーダモジュールでは,シーン特徴空間とテキスト特徴空間の相関性を高めるために2つの手法が用いられている。
論文 参考訳(メタデータ) (2021-06-13T10:36:56Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - RobustScanner: Dynamically Enhancing Positional Clues for Robust Text
Recognition [31.62436356768889]
文字レベルのシーケンスデコーダは文脈情報だけでなく位置情報も利用することを示す。
本稿では,新たな位置強調分岐を提案し,シーンテキスト認識のためのデコーダアテンションモジュールと出力を動的に融合する。
提案手法はemphRobustScannerと呼ばれ、文脈と位置の手がかりの動的比で個々の文字を復号する。
論文 参考訳(メタデータ) (2020-07-15T08:37:40Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。