論文の概要: Representation and Correlation Enhanced Encoder-Decoder Framework for
Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2106.06960v1
- Date: Sun, 13 Jun 2021 10:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 13:14:44.867292
- Title: Representation and Correlation Enhanced Encoder-Decoder Framework for
Scene Text Recognition
- Title(参考訳): シーンテキスト認識のためのエンコーダデコーダフレームワークの表現と相関
- Authors: Mengmeng Cui, Wei Wang, Jinjin Zhang, Liang Wang
- Abstract要約: 本稿では,これらの欠陥に対処し,性能ボトルネックを解消するRepresentation and correlation Enhanced-Decoder Framework(RCEED)を提案する。
エンコーダモジュールでは、局所視覚特徴、グローバルコンテキスト特徴、位置情報を整列して融合させ、小型の包括的特徴マップを生成する。
デコーダモジュールでは,シーン特徴空間とテキスト特徴空間の相関性を高めるために2つの手法が用いられている。
- 参考スコア(独自算出の注目度): 10.496558786568672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based encoder-decoder framework is widely used in the scene text
recognition task. However, for the current state-of-the-art(SOTA) methods,
there is room for improvement in terms of the efficient usage of local visual
and global context information of the input text image, as well as the robust
correlation between the scene processing module(encoder) and the text
processing module(decoder). In this paper, we propose a Representation and
Correlation Enhanced Encoder-Decoder Framework(RCEED) to address these
deficiencies and break performance bottleneck. In the encoder module, local
visual feature, global context feature, and position information are aligned
and fused to generate a small-size comprehensive feature map. In the decoder
module, two methods are utilized to enhance the correlation between scene and
text feature space. 1) The decoder initialization is guided by the holistic
feature and global glimpse vector exported from the encoder. 2) The feature
enriched glimpse vector produced by the Multi-Head General Attention is used to
assist the RNN iteration and the character prediction at each time step.
Meanwhile, we also design a Layernorm-Dropout LSTM cell to improve model's
generalization towards changeable texts. Extensive experiments on the
benchmarks demonstrate the advantageous performance of RCEED in scene text
recognition tasks, especially the irregular ones.
- Abstract(参考訳): シーン認識タスクでは注意に基づくエンコーダ・デコーダフレームワークが広く使われている。
しかし,現状のSOTA(State-of-the-art)手法では,入力されたテキスト画像の局所的な視覚的・グローバル的コンテキスト情報の効率的な利用や,シーン処理モジュール(エンコーダ)とテキスト処理モジュール(デコーダ)との堅牢な相関性が向上する。
本稿では,これらの欠陥に対処し,性能ボトルネックを解消するRepresentation and correlation Enhanced Encoder-Decoder Framework(RCEED)を提案する。
エンコーダモジュールでは、局所視覚特徴、グローバルコンテキスト特徴、位置情報を整列して融合させ、小型の包括的特徴マップを生成する。
デコーダモジュールでは,シーン特徴空間とテキスト特徴空間の相関性を高めるために2つの手法を用いる。
1)デコーダの初期化は、エンコーダからエクスポートされた全体的特徴と大域的視認ベクトルによって導かれる。
2) マルチヘッド・ジェネラル・アテンションが生成する特徴量豊富なスリープベクターを用いて,RNNの反復と各タイミングにおけるキャラクタ予測を支援する。
また,変更可能なテキストに対するモデルの一般化を改善するために, layernorm-dropout lstm セルを設計した。
ベンチマーク実験により、シーンテキスト認識タスク、特に不規則なタスクにおけるRCEEDの利点が示された。
関連論文リスト
- SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - Adjacent Context Coordination Network for Salient Object Detection in
Optical Remote Sensing Images [102.75699068451166]
本稿では,光RSI-SODのためのエンコーダ・デコーダアーキテクチャにおいて,隣接した特徴のコーディネートを探索するための新しいアジャセントコンテキストコーディネートネットワーク(ACCoNet)を提案する。
提案されたACCoNetは、9つの評価基準の下で22の最先端メソッドを上回り、1つのNVIDIA Titan X GPU上で81fpsで動作する。
論文 参考訳(メタデータ) (2022-03-25T14:14:55Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation [90.74732705236336]
言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。
本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
論文 参考訳(メタデータ) (2021-05-14T13:27:53Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - RobustScanner: Dynamically Enhancing Positional Clues for Robust Text
Recognition [31.62436356768889]
文字レベルのシーケンスデコーダは文脈情報だけでなく位置情報も利用することを示す。
本稿では,新たな位置強調分岐を提案し,シーンテキスト認識のためのデコーダアテンションモジュールと出力を動的に融合する。
提案手法はemphRobustScannerと呼ばれ、文脈と位置の手がかりの動的比で個々の文字を復号する。
論文 参考訳(メタデータ) (2020-07-15T08:37:40Z) - SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text
Recognition [17.191496890376197]
そこで我々は,低品質シーンテキストを頑健に認識するために,エンコーダ・デコーダ・フレームワークを改良したセマンティクスを提案する。
提案するフレームワークは、低品質のテキスト画像に対してより堅牢であり、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-05-22T03:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。