論文の概要: TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance
- arxiv url: http://arxiv.org/abs/2111.08314v1
- Date: Tue, 16 Nov 2021 09:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 15:04:48.139827
- Title: TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance
- Title(参考訳): TRIG:初期埋め込み誘導によるトランスフォーマーベースのテキスト認識
- Authors: Yue Tao, Zhiwei Jia, Runze Ma, Shugong Xu
- Abstract要約: シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 15.72669617789124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) is an important bridge between images and text,
attracting abundant research attention. While convolutional neural networks
(CNNS) have achieved remarkable progress in this task, most of the existing
works need an extra module (context modeling module) to help CNN to capture
global dependencies to solve the inductive bias and strengthen the relationship
between text features. Recently, the transformer has been proposed as a
promising network for global context modeling by self-attention mechanism, but
one of the main shortcomings, when applied to recognition, is the efficiency.
We propose a 1-D split to address the challenges of complexity and replace the
CNN with the transformer encoder to reduce the need for a context modeling
module. Furthermore, recent methods use a frozen initial embedding to guide the
decoder to decode the features to text, leading to a loss of accuracy. We
propose to use a learnable initial embedding learned from the transformer
encoder to make it adaptive to different input images. Above all, we introduce
a novel architecture for text recognition, named TRansformer-based text
recognizer with Initial embedding Guidance (TRIG), composed of three stages
(transformation, feature extraction, and prediction). Extensive experiments
show that our approach can achieve state-of-the-art on text recognition
benchmarks.
- Abstract(参考訳): シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジであり、多くの研究の注目を集めている。
畳み込みニューラルネットワーク(CNNS)はこのタスクにおいて顕著な進歩を遂げているが、既存の作業の多くは、CNNが帰納的バイアスを解決するためにグローバルな依存関係をキャプチャし、テキスト機能間の関係を強化するために、追加のモジュール(コンテキストモデリングモジュール)を必要とする。
近年,自己着脱機構によるグローバルコンテキストモデリングの有望なネットワークとしてトランスフォーマが提案されているが,認識に応用した場合の主な欠点は効率である。
複雑化の課題に対処し,CNNをトランスフォーマーエンコーダに置き換え,コンテキストモデリングモジュールの必要性を減らす1次元分割を提案する。
さらに、最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、機能をテキストにデコードし、精度が低下する。
本稿では、変換器エンコーダから学習可能な初期埋め込みを用いて、異なる入力画像に適応させることを提案する。
さらに,3段階(変換,特徴抽出,予測)からなる初期埋め込み誘導(TRIG)を用いたTRansformerベースのテキスト認識アーキテクチャを提案する。
大規模な実験により,本手法はテキスト認識ベンチマークの最先端性を達成できることが示されている。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - A Transformer-based Approach for Arabic Offline Handwritten Text
Recognition [0.0]
オフラインのアラビア文字を認識できるアーキテクチャを2つ導入する。
私たちのアプローチは言語依存をモデル化することができ、注意機構のみに依存するので、より並列化可能で、より複雑ではありません。
アラビアKHATTデータセットの評価は,提案手法が現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-27T17:51:52Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。