論文の概要: Scene Text Recognition with Single-Point Decoding Network
- arxiv url: http://arxiv.org/abs/2209.01914v1
- Date: Mon, 5 Sep 2022 11:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:09:26.591455
- Title: Scene Text Recognition with Single-Point Decoding Network
- Title(参考訳): シングルポイントデコードネットワークを用いたシーンテキスト認識
- Authors: Lei Chen, Haibo Qin, Shi-Xue Zhang, Chun Yang, Xucheng Yin
- Abstract要約: そこで本稿では,シーンテキスト認識のための効率的な注目のないシングルポイントデコーディングネットワーク(SPDN)を提案する。
提案手法は,各文字のキーポイントを正確に検出するだけでなく,冗長な計算も除去する。
- 参考スコア(独自算出の注目度): 15.905602374217962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, attention-based scene text recognition methods have been
very popular and attracted the interest of many researchers. Attention-based
methods can adaptively focus attention on a small area or even single point
during decoding, in which the attention matrix is nearly one-hot distribution.
Furthermore, the whole feature maps will be weighted and summed by all
attention matrices during inference, causing huge redundant computations. In
this paper, we propose an efficient attention-free Single-Point Decoding
Network (dubbed SPDN) for scene text recognition, which can replace the
traditional attention-based decoding network. Specifically, we propose
Single-Point Sampling Module (SPSM) to efficiently sample one key point on the
feature map for decoding one character. In this way, our method can not only
precisely locate the key point of each character but also remove redundant
computations. Based on SPSM, we design an efficient and novel single-point
decoding network to replace the attention-based decoding network. Extensive
experiments on publicly available benchmarks verify that our SPDN can greatly
improve decoding efficiency without sacrificing performance.
- Abstract(参考訳): 近年,注目に基づくシーンテキスト認識手法が広く普及し,多くの研究者の関心を集めている。
注意ベースの方法は、注意行列がほぼ1ホットの分布であるデコード中、小さな領域や単一点に適応的に注意を向けることができる。
さらに、機能マップ全体は推論中にすべての注意行列によって重み付けされ、合計され、巨大な冗長な計算を引き起こす。
本稿では,従来のアテンションベースのデコーディングネットワークに代わる,シーンテキスト認識のための効率的なアテンションフリーシングルポイントデコーディングネットワーク(SPDN)を提案する。
具体的には、1文字をデコードするための特徴マップ上の1つのキーポイントを効率的にサンプリングするシングルポイントサンプリングモジュール(SPSM)を提案する。
この方法では,各文字のキーポイントを正確に特定できるだけでなく,冗長な計算を除去できる。
SPSMに基づいて,注目に基づく復号ネットワークに代わる,効率的で斬新な単一点復号ネットワークを設計する。
公開ベンチマークの大規模な実験により、SPDNは性能を犠牲にすることなくデコード効率を大幅に改善できることを確認した。
関連論文リスト
- Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - Improving Fine-Grained Visual Recognition in Low Data Regimes via
Self-Boosting Attention Mechanism [27.628260249895973]
SAM(Self-boosting attention mechanism)は、ネットワークを正規化して、サンプルやクラス間で共有されるキー領域に集中するための新しい手法である。
我々はSAMを用いて、二線形プール方式で畳み込みマップをプールするために複数の注意マップを作成する変種を開発する。
論文 参考訳(メタデータ) (2022-08-01T05:36:27Z) - Parallel Scale-wise Attention Network for Effective Scene Text
Recognition [23.567835573580847]
多くの最先端の手法では、テキストアライメントのためにテキストエンコーダまたはデコーダで注意の仕組みを用いる。
複数スケールFEとVAを並列に実行するテキスト認識のための新しいマルチスケールおよびエンコーダベースの注意ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-25T06:44:26Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - One Point is All You Need: Directional Attention Point for Feature
Learning [51.44837108615402]
ポイントクラウド分類やセグメンテーションなどのタスクのポイント機能強化を学習するための新しい注意ベースのメカニズムを提示する。
我々は,最先端のクラウド分類とセグメンテーションネットワークに注目機構を組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-12-11T11:45:39Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - RobustScanner: Dynamically Enhancing Positional Clues for Robust Text
Recognition [31.62436356768889]
文字レベルのシーケンスデコーダは文脈情報だけでなく位置情報も利用することを示す。
本稿では,新たな位置強調分岐を提案し,シーンテキスト認識のためのデコーダアテンションモジュールと出力を動的に融合する。
提案手法はemphRobustScannerと呼ばれ、文脈と位置の手がかりの動的比で個々の文字を復号する。
論文 参考訳(メタデータ) (2020-07-15T08:37:40Z) - T-Net: Learning Feature Representation with Task-specific Supervision
for Biomedical Image Analysis [18.612108108320424]
本稿では,特徴抽出器の注意を各タスクに応じて適応させて,効果的な表現学習を行うことにより,新たな学習戦略を提案する。
具体的には、T-Netという名前のフレームワークは、タスク固有の注意マップによって教師される符号化ネットワークと、学習した特徴を取り入れて対応する結果を予測する後部ネットワークから構成される。
論文 参考訳(メタデータ) (2020-02-19T19:38:28Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。