論文の概要: Pure Transformer with Integrated Experts for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2211.04963v1
- Date: Wed, 9 Nov 2022 15:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:15:14.527962
- Title: Pure Transformer with Integrated Experts for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のための統合エキスパートによる純変換器
- Authors: Yew Lee Tan, Adams Wai-kin Kong, Jung-Jae Kim
- Abstract要約: シーンテキスト認識(STR:Scene text recognition)は、自然のシーンの収穫された画像のテキストを読む作業である。
近年、変換器アーキテクチャはSTRで広く採用されており、長期依存を捕捉する強力な能力を示している。
本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
- 参考スコア(独自算出の注目度): 11.089203218000854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) involves the task of reading text in cropped
images of natural scenes. Conventional models in STR employ convolutional
neural network (CNN) followed by recurrent neural network in an encoder-decoder
framework. In recent times, the transformer architecture is being widely
adopted in STR as it shows strong capability in capturing long-term dependency
which appears to be prominent in scene text images. Many researchers utilized
transformer as part of a hybrid CNN-transformer encoder, often followed by a
transformer decoder. However, such methods only make use of the long-term
dependency mid-way through the encoding process. Although the vision
transformer (ViT) is able to capture such dependency at an early stage, its
utilization remains largely unexploited in STR. This work proposes the use of a
transformer-only model as a simple baseline which outperforms hybrid
CNN-transformer models. Furthermore, two key areas for improvement were
identified. Firstly, the first decoded character has the lowest prediction
accuracy. Secondly, images of different original aspect ratios react
differently to the patch resolutions while ViT only employ one fixed patch
resolution. To explore these areas, Pure Transformer with Integrated Experts
(PTIE) is proposed. PTIE is a transformer model that can process multiple patch
resolutions and decode in both the original and reverse character orders. It is
examined on 7 commonly used benchmarks and compared with over 20
state-of-the-art methods. The experimental results show that the proposed
method outperforms them and obtains state-of-the-art results in most
benchmarks.
- Abstract(参考訳): シーンテキスト認識(str)は、自然シーンの切り抜き画像でテキストを読む作業である。
STRの従来のモデルは畳み込みニューラルネットワーク(CNN)を使用し、続いてエンコーダ-デコーダフレームワークで繰り返しニューラルネットワークを使用する。
近年,このトランスフォーマーアーキテクチャがSTRで広く採用されているのは,シーンテキスト画像に顕著な長期依存を捕捉する強力な能力を示すためである。
多くの研究者がトランスフォーマをcnn-トランスフォーマエンコーダのハイブリッドとして利用し、トランスフォーマデコーダが続いた。
しかし、そのような手法はエンコーディングプロセスを通しての長期的な依存関係のみを利用する。
視覚変換器(ViT)はそのような依存を早期に捉えることができるが、その利用はSTRでは明らかにされていない。
本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。
さらに,改善すべき2つの重要な領域が特定された。
まず、第1復号文字は、予測精度が最低となる。
第2に、異なる元のアスペクト比のイメージはパッチ解像度と異なる反応を示し、ViTは1つの固定パッチ解像度のみを使用する。
これらの分野を探るために,ptie(pure transformer with integrated experts)を提案する。
PTIEは、複数のパッチ解像度を処理し、元の文字順と逆文字順の両方でデコードできるトランスフォーマーモデルである。
7つの一般的なベンチマークで調べられ、20以上の最先端の手法と比較される。
実験結果から,提案手法はそれらの性能を上回り,ほとんどのベンチマークで最先端の結果を得た。
関連論文リスト
- Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions [1.1032962642000486]
この作業は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-merge-transformを使用してグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と命名する。
CIFAR-10データセット上で画像分類タスクを行い、COCO 2017データセット上でオブジェクト検出タスクを実行する。
論文 参考訳(メタデータ) (2022-03-02T09:14:28Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。