論文の概要: SVIPTR: Fast and Efficient Scene Text Recognition with Vision Permutable Extractor
- arxiv url: http://arxiv.org/abs/2401.10110v5
- Date: Tue, 20 Aug 2024 02:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 20:30:33.916720
- Title: SVIPTR: Fast and Efficient Scene Text Recognition with Vision Permutable Extractor
- Title(参考訳): SVIPTR:視覚可変エクストラクタを用いた高速かつ効率的なシーンテキスト認識
- Authors: Xianfu Cheng, Weixiao Zhou, Xiang Li, Jian Yang, Hang Zhang, Tao Sun, Wei Zhang, Yuying Mai, Tongliang Li, Xiaoming Chen, Zhoujun Li,
- Abstract要約: シーンテキスト認識は構造化情報データベースを構築する上で重要かつ困難なタスクである。
現在のSTRのSOTAモデルは高い性能を示すが、推論効率は低い。
高速かつ効率的なシーンテキスト認識のための第3次可変抽出器を提案する。
- 参考スコア(独自算出の注目度): 32.29602765394547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Text Recognition (STR) is an important and challenging upstream task for building structured information databases, that involves recognizing text within images of natural scenes. Although current state-of-the-art (SOTA) models for STR exhibit high performance, they typically suffer from low inference efficiency due to their reliance on hybrid architectures comprised of visual encoders and sequence decoders. In this work, we propose a VIsion Permutable extractor for fast and efficient Scene Text Recognition (SVIPTR), which achieves an impressive balance between high performance and rapid inference speeds in the domain of STR. Specifically, SVIPTR leverages a visual-semantic extractor with a pyramid structure, characterized by the Permutation and combination of local and global self-attention layers. This design results in a lightweight and efficient model and its inference is insensitive to input length. Extensive experimental results on various standard datasets for both Chinese and English scene text recognition validate the superiority of SVIPTR. Notably, the SVIPTR-T (Tiny) variant delivers highly competitive accuracy on par with other lightweight models and achieves SOTA inference speeds. Meanwhile, the SVIPTR-L (Large) attains SOTA accuracy in single-encoder-type models, while maintaining a low parameter count and favorable inference speed. Our proposed method provides a compelling solution for the STR challenge, which greatly benefits real-world applications requiring fast and efficient STR. The code is publicly available at https://github.com/cxfyxl/VIPTR.
- Abstract(参考訳): Scene Text Recognition (STR) は構造化された情報データベースを構築する上で重要かつ困難なタスクであり、自然のシーンの画像内でテキストを認識する。
現在のSTRのSOTAモデルは高い性能を示すが、一般的にはビジュアルエンコーダとシーケンスデコーダで構成されるハイブリッドアーキテクチャに依存するため、推論効率が低い。
本研究では,高速かつ効率的なScene Text Recognition (SVIPTR) のための VIsion Permutable extractor を提案する。
具体的には、SVIPTRは、局所的およびグローバルな自己注意層の組み合わせと置換によって特徴づけられるピラミッド構造を持つ視覚的意味抽出器を利用する。
この設計は軽量で効率的なモデルとなり、その推論は入力長に敏感である。
中国語と英語の両方のシーンテキスト認識のための各種標準データセットに対する大規模な実験結果によりSVIPTRの優位性が検証された。
特にSVIPTR-T(Tiny)は、他の軽量モデルと同等に高い競争精度を提供し、SOTA推論速度を達成する。
一方、SVIPTR-L (Large) はシングルエンコーダ型モデルではSOTA精度が向上し、低パラメータ数と良好な推論速度を維持している。
提案手法はSTRチャレンジに対して,高速かつ効率的なSTRを必要とする実世界のアプリケーションに多大な利益をもたらす説得力のあるソリューションを提供する。
コードはhttps://github.com/cxfyxl/VIPTRで公開されている。
関連論文リスト
- FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting [14.054151352916296]
本稿では,Swin Transformerの視覚バックボーンとTransformer-Decoderアーキテクチャを統合したFastTextSpotterを提案する。
FastTextSpotterは、通常のテキストのICDAR2015や任意の形のテキストのCTW1500、TotalTextなど、複数のデータセットで検証されている。
以上の結果から,FastTextSpotterは多言語シーンテキストの検出と認識において,より優れた精度を実現することが示唆された。
論文 参考訳(メタデータ) (2024-08-27T12:28:41Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - YORO -- Lightweight End to End Visual Grounding [58.17659561501071]
YOROは、Visual Grounding (VG)タスクのためのマルチモーダルトランスフォーマーエンコーダのみのアーキテクチャである。
自然言語クエリ、イメージパッチ、学習可能な検出トークンを消費し、参照対象の座標を予測する。
YOROはリアルタイム推論をサポートし、このクラスのすべてのアプローチ(単一段階法)を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-11-15T05:34:40Z) - SVTR: Scene Text Recognition with a Single Visual Model [44.26135584093631]
パッチワイド画像トークン化フレームワークにおいて,シーンテキスト認識のための単一ビジュアルモデルを提案する。
SVTRと呼ばれるこの方法は、まずイメージテキストを小さなパッチに分解する。
英語と中国語の両方のシーンテキスト認識タスクの実験結果から,SVTRの有効性が示された。
論文 参考訳(メタデータ) (2022-04-30T04:37:01Z) - Pushing the Performance Limit of Scene Text Recognizer without Human
Annotation [17.092815629040388]
我々は、合成データと多数の実際の未ラベル画像の両方を活用することでSTRモデルを強化することを目指している。
文字レベルの整合性規則化は、シーケンス認識における文字間の不一致を軽減するように設計されている。
論文 参考訳(メタデータ) (2022-04-16T04:42:02Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。