論文の概要: Vision Transformer for Fast and Efficient Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2105.08582v1
- Date: Tue, 18 May 2021 15:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 13:57:54.492281
- Title: Vision Transformer for Fast and Efficient Scene Text Recognition
- Title(参考訳): 高速かつ効率的なシーンテキスト認識のための視覚変換器
- Authors: Rowel Atienza
- Abstract要約: シーンテキスト認識(STR)により、コンピュータはオブジェクトラベル、道路標識、指示などの自然シーンでテキストを読むことができます。
速度と計算効率に重点を置くことはほとんどなく、特にエネルギー制約のあるモバイルマシンにとって同様に重要です。
計算およびパラメータ効率の良い視覚変換器(ViT)上に構築されたシンプルな単一ステージモデルアーキテクチャを持つSTRであるViTSTRを提案する。
- 参考スコア(独自算出の注目度): 19.286766429954174
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene text recognition (STR) enables computers to read text in natural scenes
such as object labels, road signs and instructions. STR helps machines perform
informed decisions such as what object to pick, which direction to go, and what
is the next step of action. In the body of work on STR, the focus has always
been on recognition accuracy. There is little emphasis placed on speed and
computational efficiency which are equally important especially for
energy-constrained mobile machines. In this paper we propose ViTSTR, an STR
with a simple single stage model architecture built on a compute and parameter
efficient vision transformer (ViT). On a comparable strong baseline method such
as TRBA with accuracy of 84.3%, our small ViTSTR achieves a competitive
accuracy of 82.6% (84.2% with data augmentation) at 2.4x speed up, using only
43.4% of the number of parameters and 42.2% FLOPS. The tiny version of ViTSTR
achieves 80.3% accuracy (82.1% with data augmentation), at 2.5x the speed,
requiring only 10.9% of the number of parameters and 11.9% FLOPS. With data
augmentation, our base ViTSTR outperforms TRBA at 85.2% accuracy (83.7% without
augmentation) at 2.3x the speed but requires 73.2% more parameters and 61.5%
more FLOPS. In terms of trade-offs, nearly all ViTSTR configurations are at or
near the frontiers to maximize accuracy, speed and computational efficiency all
at the same time.
- Abstract(参考訳): Scene Text Recognition (STR) は、コンピュータがオブジェクトラベル、道路標識、指示書などの自然なシーンでテキストを読むことを可能にする。
STRは、どのオブジェクトを選択するか、どの方向に進むか、次のアクションのステップは何かといった、マシンが情報的な決定を行うのを助ける。
STRの研究の本体では、常に認識精度に焦点が当てられている。
速度と計算効率にはあまり重点が置かれておらず、特にエネルギー制約のあるモバイルマシンでも同様に重要である。
本稿では、計算およびパラメータ効率のよい視覚変換器(ViT)上に構築された単純な単一ステージモデルアーキテクチャを持つSTRであるViTSTRを提案する。
TRBAのような、84.3%の精度の強力なベースライン法では、私たちの小さなViTSTRは、パラメータの43.4%と42.2%のFLOPSを使用して、2.4倍の速度で82.6%(データ拡張で84.2%)の競争精度を達成する。
ViTSTRの小さなバージョンは80.3%の精度(データ拡張で82.1%)、2.5倍の速度で、パラメータの10.9%と11.9%のFLOPSしか必要としない。
データ拡張では、我々のベースViTSTRはTRBAの精度85.2%(拡張なしで83.7%)を2.3倍に向上するが、73.2%以上のパラメータと61.5%以上のFLOPSを必要とする。
トレードオフに関して言えば、ほぼ全てのViTSTR構成は、精度、速度、計算効率を同時に最大化するために、フロンティア付近にある。
関連論文リスト
- Sebica: Lightweight Spatial and Efficient Bidirectional Channel Attention Super Resolution Network [0.0]
SISR(Single Image Super-Resolution)は,低解像度画像の画質向上のための重要な技術である。
本稿では,空間的および効率的な双方向チャネルアテンション機構を組み込んだ軽量ネットワークSebicaを提案する。
セビカは高い復元品質を維持しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-10-27T18:27:07Z) - SVIPTR: Fast and Efficient Scene Text Recognition with Vision Permutable Extractor [32.29602765394547]
シーンテキスト認識は構造化情報データベースを構築する上で重要かつ困難なタスクである。
現在のSTRのSOTAモデルは高い性能を示すが、推論効率は低い。
高速かつ効率的なシーンテキスト認識のための第3次可変抽出器を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:27:09Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Sim-T: Simplify the Transformer Network by Multiplexing Technique for
Speech Recognition [2.4956060473718407]
トランスフォーマーモデルの汎用性を高めるために,Sim-Tと呼ばれる新しい軽量モデルが提案されている。
新たに開発された多重化技術の助けを借りて、Sim-Tはその性能に対して無視できない犠牲でモデルを効率的に圧縮することができる。
論文 参考訳(メタデータ) (2023-04-11T05:25:00Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision
Transformer with Mixed-Scheme Quantization [78.18328503396057]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。
本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-10T05:54:46Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Data Augmentation for Scene Text Recognition [19.286766429954174]
シーンテキスト認識(STR)は、自然界におけるテキストの出現の可能性が大きいため、コンピュータビジョンにおいて難しい課題である。
ほとんどのSTRモデルは、十分に大きくて一般公開された実際のデータセットがないため、トレーニングのために合成データセットに依存しています。
本稿では,STR用に設計した36個の画像拡張関数からなるSTRAugを紹介する。
論文 参考訳(メタデータ) (2021-08-16T07:53:30Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。