論文の概要: SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2411.15858v1
- Date: Sun, 24 Nov 2024 14:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:47.368999
- Title: SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition
- Title(参考訳): SVTRv2:CTCがシーンテキスト認識におけるエンコーダデコーダモデルを上回る
- Authors: Yongkun Du, Zhineng Chen, Hongtao Xie, Caiyan Jia, Yu-Gang Jiang,
- Abstract要約: CTCモデルであるSVTRv2を提案する。
SVTRv2は、テキストの不規則性に対処し、言語コンテキストを利用するための新しいアップグレードを導入した。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で評価した。
- 参考スコア(独自算出の注目度): 77.28814034644287
- License:
- Abstract: Connectionist temporal classification (CTC)-based scene text recognition (STR) methods, e.g., SVTR, are widely employed in OCR applications, mainly due to their simple architecture, which only contains a visual model and a CTC-aligned linear classifier, and therefore fast inference. However, they generally have worse accuracy than encoder-decoder-based methods (EDTRs), particularly in challenging scenarios. In this paper, we propose SVTRv2, a CTC model that beats leading EDTRs in both accuracy and inference speed. SVTRv2 introduces novel upgrades to handle text irregularity and utilize linguistic context, which endows it with the capability to deal with challenging and diverse text instances. First, a multi-size resizing (MSR) strategy is proposed to adaptively resize the text and maintain its readability. Meanwhile, we introduce a feature rearrangement module (FRM) to ensure that visual features accommodate the alignment requirement of CTC well, thus alleviating the alignment puzzle. Second, we propose a semantic guidance module (SGM). It integrates linguistic context into the visual model, allowing it to leverage language information for improved accuracy. Moreover, SGM can be omitted at the inference stage and would not increase the inference cost. We evaluate SVTRv2 in both standard and recent challenging benchmarks, where SVTRv2 is fairly compared with 24 mainstream STR models across multiple scenarios, including different types of text irregularity, languages, and long text. The results indicate that SVTRv2 surpasses all the EDTRs across the scenarios in terms of accuracy and speed. Code is available at https://github.com/Topdu/OpenOCR.
- Abstract(参考訳): 接続型時間的分類(CTC)に基づくシーンテキスト認識(STR)法は,視覚モデルとCTC整列線形分類器のみを含む単純なアーキテクチャのため,OCRアプリケーションで広く用いられている。
しかし、一般的にはエンコーダデコーダベースの手法(EDTR)よりも精度が悪い。
本稿では,EDTRの精度と推論速度を両立させるCTCモデルSVTRv2を提案する。
SVTRv2は、テキストの不規則性を扱うための新しいアップグレードを導入し、言語コンテキストを利用する。
まず、テキストを適応的に再サイズし、可読性を維持するためのマルチサイズリサイズ(MSR)戦略を提案する。
一方,視覚的特徴がCTCのアライメント要求に適合することを保証するために,特徴再構成モジュール(FRM)を導入し,アライメントパズルを緩和する。
次に,意味誘導モジュール(SGM)を提案する。
言語コンテキストを視覚モデルに統合し、言語情報を活用して精度を向上させる。
さらに、SGMは推論段階で省略することができ、推論コストを増大させることはない。
SVTRv2は、様々なタイプのテキストの不規則性、言語、長いテキストを含む複数のシナリオにわたる24のメインストリームのSTRモデルと比較される。
その結果,SVTRv2は全シナリオのEDTRを精度と速度で上回っていることがわかった。
コードはhttps://github.com/Topdu/OpenOCRで入手できる。
関連論文リスト
- Coupling Speech Encoders with Downstream Text Models [4.679869237248675]
カスケード音声翻訳モデルを構築するためのモジュラー手法を提案する。
我々は,与えられたタスクに対して,最先端音声認識(ASR)とテキスト翻訳(MT)の性能を維持する。
論文 参考訳(メタデータ) (2024-07-24T19:29:13Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech
Recognition [43.081758770899235]
C++で実装された研究指向の汎用S2SデコーダであるRASR2を提案する。
さまざまなS2Sモデル、言語モデル、ラベル単位/トポロジ、ニューラルネットワークアーキテクチャに対して、強力な柔軟性/互換性を提供する。
オープンおよびクローズドボキャブラリーの両方のシナリオに対して,検索モードや設定の充実したサポートを備えた汎用検索フレームワークをベースとした,効率的なデコーディングを提供する。
論文 参考訳(メタデータ) (2023-05-28T17:48:48Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - SVTR: Scene Text Recognition with a Single Visual Model [44.26135584093631]
パッチワイド画像トークン化フレームワークにおいて,シーンテキスト認識のための単一ビジュアルモデルを提案する。
SVTRと呼ばれるこの方法は、まずイメージテキストを小さなパッチに分解する。
英語と中国語の両方のシーンテキスト認識タスクの実験結果から,SVTRの有効性が示された。
論文 参考訳(メタデータ) (2022-04-30T04:37:01Z) - Towards Escaping from Language Bias and OCR Error: Semantics-Centered
Text Visual Question Answering [14.010472385359163]
シーンイメージのテキストは、シーン理解と推論のための重要な情報を伝える。
現在のTextVQAモデルはテキスト中心ではなく、いくつかの制限に悩まされている。
本稿では,インスタンスレベルのコントラスト型セマンティックな予測モジュールとセマンティックス中心のトランスフォーマーモジュールからなるセマンティックス中心ネットワーク(SC-Net)を提案する。
論文 参考訳(メタデータ) (2022-03-24T08:21:41Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。