論文の概要: VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2401.10110v1
- Date: Thu, 18 Jan 2024 16:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:00:06.468749
- Title: VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text
Recognition
- Title(参考訳): VIPTR: 高速かつ高能率なシーンテキスト認識のための視覚可変エクストラクタ
- Authors: Xianfu Cheng, Weixiao Zhou, Xiang Li, Xiaoming Chen, Jian Yang,
Tongliang Li, Zhoujun Li
- Abstract要約: シーンテキスト認識(STR)は、自然のシーンの画像内のテキストを認識するという課題である。
高速かつ効率的なシーンテキスト認識のためのVIPTR(Vision Permutable extractor)を提案する。
VIPTRはSTRの領域における高速な推論速度と高速な推論速度の顕著なバランスを実現する。
- 参考スコア(独自算出の注目度): 32.12388950990217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Text Recognition (STR) is a challenging task that involves recognizing
text within images of natural scenes. Although current state-of-the-art models
for STR exhibit high performance, they typically suffer from low inference
efficiency due to their reliance on hybrid architectures comprised of visual
encoders and sequence decoders. In this work, we propose the VIsion Permutable
extractor for fast and efficient scene Text Recognition (VIPTR), which achieves
an impressive balance between high performance and rapid inference speeds in
the domain of STR. Specifically, VIPTR leverages a visual-semantic extractor
with a pyramid structure, characterized by multiple self-attention layers,
while eschewing the traditional sequence decoder. This design choice results in
a lightweight and efficient model capable of handling inputs of varying sizes.
Extensive experimental results on various standard datasets for both Chinese
and English scene text recognition validate the superiority of VIPTR. Notably,
the VIPTR-T (Tiny) variant delivers highly competitive accuracy on par with
other lightweight models and achieves SOTA inference speeds. Meanwhile, the
VIPTR-L (Large) variant attains greater recognition accuracy, while maintaining
a low parameter count and favorable inference speed. Our proposed method
provides a compelling solution for the STR challenge, which blends high
accuracy with efficiency and greatly benefits real-world applications requiring
fast and reliable text recognition. The code is publicly available at
https://github.com/cxfyxl/VIPTR.
- Abstract(参考訳): シーンテキスト認識(STR)は、自然のシーンの画像内のテキストを認識するという課題である。
現在のSTRの最先端モデルは高い性能を示すが、一般的にはビジュアルエンコーダとシーケンスデコーダで構成されるハイブリッドアーキテクチャに依存するため、推論効率が低い。
本研究では,高速かつ効率的なシーンテキスト認識(VIPTR)のためのVIsion Permutable extractorを提案する。
具体的には、VIPTRは、伝統的なシークエンスデコーダをエシェレーションしながら、複数の自己アテンション層を特徴とするピラミッド構造を持つ視覚的意味抽出器を利用する。
この設計選択は、様々なサイズの入力を処理できる軽量で効率的なモデルをもたらす。
中国語と英語のテキスト認識のための様々な標準データセットに関する広範囲な実験結果がviptrの優位性を検証している。
特に、VIPTR-T(Tiny)は、他の軽量モデルと同等の高い競争精度を提供し、SOTA推論速度を達成する。
一方、VIPTR-L(Large)変異は、低いパラメータ数と好ましい推論速度を維持しつつ、より高い認識精度を実現する。
提案手法は,高い精度と効率をブレンドし,高速で信頼性の高いテキスト認識を必要とする実世界のアプリケーションに多大な恩恵を与える。
コードはhttps://github.com/cxfyxl/VIPTRで公開されている。
関連論文リスト
- FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting [14.054151352916296]
本稿では,Swin Transformerの視覚バックボーンとTransformer-Decoderアーキテクチャを統合したFastTextSpotterを提案する。
FastTextSpotterは、通常のテキストのICDAR2015や任意の形のテキストのCTW1500、TotalTextなど、複数のデータセットで検証されている。
以上の結果から,FastTextSpotterは多言語シーンテキストの検出と認識において,より優れた精度を実現することが示唆された。
論文 参考訳(メタデータ) (2024-08-27T12:28:41Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - YORO -- Lightweight End to End Visual Grounding [58.17659561501071]
YOROは、Visual Grounding (VG)タスクのためのマルチモーダルトランスフォーマーエンコーダのみのアーキテクチャである。
自然言語クエリ、イメージパッチ、学習可能な検出トークンを消費し、参照対象の座標を予測する。
YOROはリアルタイム推論をサポートし、このクラスのすべてのアプローチ(単一段階法)を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-11-15T05:34:40Z) - SVTR: Scene Text Recognition with a Single Visual Model [44.26135584093631]
パッチワイド画像トークン化フレームワークにおいて,シーンテキスト認識のための単一ビジュアルモデルを提案する。
SVTRと呼ばれるこの方法は、まずイメージテキストを小さなパッチに分解する。
英語と中国語の両方のシーンテキスト認識タスクの実験結果から,SVTRの有効性が示された。
論文 参考訳(メタデータ) (2022-04-30T04:37:01Z) - Pushing the Performance Limit of Scene Text Recognizer without Human
Annotation [17.092815629040388]
我々は、合成データと多数の実際の未ラベル画像の両方を活用することでSTRモデルを強化することを目指している。
文字レベルの整合性規則化は、シーケンス認識における文字間の不一致を軽減するように設計されている。
論文 参考訳(メタデータ) (2022-04-16T04:42:02Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。