論文の概要: CSTR: A Classification Perspective on Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2102.10884v1
- Date: Mon, 22 Feb 2021 10:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 14:56:27.487818
- Title: CSTR: A Classification Perspective on Scene Text Recognition
- Title(参考訳): CSTR: シーンテキスト認識の分類的視点
- Authors: Hongxiang Cai, Jun Sun, Yichao Xiong
- Abstract要約: 本研究では,シーンテキスト認識を画像分類問題としてモデル化するシーンテキスト認識の新たな視点を提案する。
画像分類の観点から,CSTRと命名されたシーンテキスト認識モデルを提案する。
CSTRは、通常のテキスト、不規則なテキストを含む6つの公開ベンチマークで最先端のパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 3.286661798699067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalent perspectives of scene text recognition are from sequence to
sequence (seq2seq) and segmentation. In this paper, we propose a new
perspective on scene text recognition, in which we model the scene text
recognition as an image classification problem. Based on the image
classification perspective, a scene text recognition model is proposed, which
is named as CSTR.
The CSTR model consists of a series of convolutional layers and a global
average pooling layer at the end, followed by independent multi-class
classification heads, each of which predicts the corresponding character of the
word sequence in input image. The CSTR model is easy to train using parallel
cross entropy losses.
CSTR is as simple as image classification models like ResNet
\cite{he2016deep} which makes it easy to implement, and the fully convolutional
neural network architecture makes it efficient to train and deploy. We
demonstrate the effectiveness of the classification perspective on scene text
recognition with thorough experiments. Futhermore, CSTR achieves nearly
state-of-the-art performance on six public benchmarks including regular text,
irregular text. The code will be available at
https://github.com/Media-Smart/vedastr.
- Abstract(参考訳): シーンテキスト認識の一般的な視点は、シーケンスからシーケンス(seq2seq)とセグメンテーションである。
本稿では,シーンテキスト認識を画像分類問題としてモデル化するシーンテキスト認識の新たな視点を提案する。
画像分類の観点から,CSTRと命名されたシーンテキスト認識モデルを提案する。
CSTRモデルは一連の畳み込み層と終端のグローバル平均プール層から構成され、その後に独立した多クラス分類ヘッドが続き、それぞれが入力画像中の単語列の対応する文字を予測する。
CSTRモデルは並列クロスエントロピー損失を用いた訓練が容易である。
CSTRはResNet \cite{he2016deep}のようなイメージ分類モデルと同じくらいシンプルで、実装が容易であり、完全な畳み込みニューラルネットワークアーキテクチャにより、トレーニングとデプロイが効率的になる。
シーンテキスト認識における分類視点の有効性を徹底した実験により示す。
さらに、CSTRは、通常のテキスト、不規則なテキストを含む6つの公開ベンチマークで最先端のパフォーマンスを実現します。
コードはhttps://github.com/Media-Smart/vedastr.comから入手できる。
関連論文リスト
- Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。