論文の概要: A Glyph-driven Topology Enhancement Network for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2203.03382v1
- Date: Mon, 7 Mar 2022 13:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 20:31:09.230497
- Title: A Glyph-driven Topology Enhancement Network for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のためのグリフ駆動トポロジー拡張ネットワーク
- Authors: Tongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng
- Abstract要約: テキスト認識のための視覚モデルにおけるトポロジ的特徴表現を改善するために,Glyph-driven Topology Enhancement Network (GTEN)を提案する。
具体的には、まず1次元のシーケンスアライメント重みを利用するために教師なしの手法を用いる。
第2に,文字レベルのアノテーションを伴わずに,グリフの2次元順序および画素ワイズトポロジ情報を取得するための教師付きセグメンテーションモジュールを構築した。
第三に、これらの出力は、STRのセマンティックな特徴表現を豊かにするために、拡張されたトポロジ的特徴を融合させる。
- 参考スコア(独自算出の注目度): 12.877564787055848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based methods by establishing one-dimensional (1D) and
two-dimensional (2D) mechanisms with an encoder-decoder framework have
dominated scene text recognition (STR) tasks due to their capabilities of
building implicit language representations. However, 1D attention-based
mechanisms suffer from alignment drift on latter characters. 2D attention-based
mechanisms only roughly focus on the spatial regions of characters without
excavating detailed topological structures, which reduces the visual
performance. To mitigate the above issues, we propose a novel Glyph-driven
Topology Enhancement Network (GTEN) to improve topological features
representations in visual models for STR. Specifically, an unsupervised method
is first employed to exploit 1D sequence-aligned attention weights. Second, we
construct a supervised segmentation module to capture 2D ordered and pixel-wise
topological information of glyphs without extra character-level annotations.
Third, these resulting outputs fuse enhanced topological features to enrich
semantic feature representations for STR. Experiments demonstrate that GTEN
achieves competitive performance on IIIT5K-Words, Street View Text,
ICDAR-series, SVT Perspective, and CUTE80 datasets.
- Abstract(参考訳): 1次元(1次元)と2次元(2次元)のメカニズムをエンコーダ-デコーダフレームワークで確立した注意に基づく手法は、暗黙的な言語表現を構築する能力から、シーンテキスト認識(str)タスクを支配してきた。
しかし、1Dの注意に基づくメカニズムは、後者の文字のアライメントドリフトに悩まされる。
2次元注意に基づくメカニズムは、詳細なトポロジー構造を掘削することなく、文字の空間領域のみに焦点を合わせ、視覚性能を低下させる。
以上の問題を緩和するために,新しいGlyph-driven Topology Enhancement Network (GTEN) を提案し,STRの視覚モデルにおけるトポロジ的特徴表現を改善する。
具体的には、まず1次元のシーケンスアライメント重みを利用するために教師なしの手法を用いる。
第2に,文字レベルのアノテーションを伴わずに,グリフの2次元順序および画素ワイズトポロジ情報を取得するための教師付きセグメンテーションモジュールを構築する。
第三に、これらの出力は、STRのセマンティックな特徴表現を豊かにするために、拡張されたトポロジ的特徴を融合させる。
実験により、GTENはIIIT5K-Words、Street View Text、ICDAR-Series、SVT Perspective、CUTE80データセット上での競合性能を実証した。
関連論文リスト
- Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - Attention Guidance Mechanism for Handwritten Mathematical Expression
Recognition [20.67011291281534]
手書きの数学的表現認識(HMER)は、複雑な数学的表現のレイアウトのため、画像からテキストへのタスクにおいて困難である。
本研究では,無関係領域における注意重みを明示的に抑制し,適切な部分を強化するための注意誘導機構を提案する。
本手法は, CROHME 2014/2016/2019データセットにおいて, 60.75% / 61.81% / 63.30%の表現認識率を達成し, 既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-04T06:22:17Z) - Weakly-Supervised Text Instance Segmentation [44.20745377169349]
テキスト認識とテキストセグメンテーションをブリッジすることで、弱教師付きテキストインスタンスセグメンテーションを初めて実施する。
提案手法は, ICDAR13-FST(18.95$%$改善)ベンチマークとTextSeg (17.80$%$改善)ベンチマークにおいて, 弱教師付きインスタンスセグメンテーション法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-20T03:56:47Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - On the Locality of Attention in Direct Speech Translation [0.1749935196721634]
トランスフォーマーは複数のNLPタスクにまたがって最先端の結果を得た。
直接音声翻訳における自己注意の有用性について論じる。
論文 参考訳(メタデータ) (2022-04-19T17:43:37Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - MANGO: A Mask Attention Guided One-Stage Scene Text Spotter [41.66707532607276]
MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:47:49Z) - Boost Image Captioning with Knowledge Reasoning [10.733743535624509]
本稿では,単語ごとの逐次的な記述を生成する際の視覚的注意の正しさを改善するために,単語注意を提案する。
本稿では,知識グラフから抽出した外部知識をエンコーダ・デコーダ・フレームワークに注入し,意味のあるキャプションを容易にする新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-02T12:19:46Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。