論文の概要: Self-supervised Implicit Glyph Attention for Text Recognition
- arxiv url: http://arxiv.org/abs/2203.03382v4
- Date: Mon, 15 May 2023 09:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 01:33:04.688026
- Title: Self-supervised Implicit Glyph Attention for Text Recognition
- Title(参考訳): テキスト認識のための自己教師型インシシト・グリフアテンション
- Authors: Tongkun Guan, Chaochen Gu, Jingzheng Tu, Xue Yang, Qi Feng, Yudi Zhao,
Xiaokang Yang, Wei Shen
- Abstract要約: 我々は、シーンテキスト認識(STR)手法、自監督型暗黙的グリフアテンション(SIGA)のための新しいアテンションメカニズムを提案する。
SIGAは、テキストイメージのグリフ構造を、共同で教師付きテキストセグメンテーションと暗黙の注意アライメントによって記述する。
実験の結果,SIGA は従来の STR 法よりも一貫した性能を示した。
- 参考スコア(独自算出の注目度): 52.68772018871633
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The attention mechanism has become the \emph{de facto} module in scene text
recognition (STR) methods, due to its capability of extracting character-level
representations. These methods can be summarized into implicit attention based
and supervised attention based, depended on how the attention is computed,
i.e., implicit attention and supervised attention are learned from
sequence-level text annotations and or character-level bounding box
annotations, respectively. Implicit attention, as it may extract coarse or even
incorrect spatial regions as character attention, is prone to suffering from an
alignment-drifted issue. Supervised attention can alleviate the above issue,
but it is character category-specific, which requires extra laborious
character-level bounding box annotations and would be memory-intensive when
handling languages with larger character categories. To address the
aforementioned issues, we propose a novel attention mechanism for STR,
self-supervised implicit glyph attention (SIGA). SIGA delineates the glyph
structures of text images by jointly self-supervised text segmentation and
implicit attention alignment, which serve as the supervision to improve
attention correctness without extra character-level annotations. Experimental
results demonstrate that SIGA performs consistently and significantly better
than previous attention-based STR methods, in terms of both attention
correctness and final recognition performance on publicly available context
benchmarks and our contributed contextless benchmarks.
- Abstract(参考訳): 注意機構は、文字レベルの表現を抽出する能力のため、シーンテキスト認識(STR)メソッドにおける \emph{de facto} モジュールとなっている。
これらの方法は暗黙的注意と教師付き注意にまとめることができ、注意の計算方法、すなわち、暗黙的注意と教師付き注意は、シーケンスレベルのテキストアノテーションや文字レベルのバウンディングボックスアノテーションからそれぞれ学習される。
暗黙の注意は、粗い領域や不正確な空間領域を特徴的注意として抽出するので、アライメントドリフトの問題に苦しむ傾向がある。
監視された注意は上記の問題を緩和することができるが、これは文字分類に特有であり、余計な面倒な文字レベルのバウンディングボックスアノテーションを必要とする。
上記の問題に対処するため,我々はstr,self-supervised implicit glyph attention (siga) のための新しい注意機構を提案する。
SIGAは、テキストイメージのグリフ構造を、共同で自己組織化されたテキストセグメンテーションと暗黙の注意アライメントによって記述する。
実験の結果,SIGA は従来の注目に基づく STR 手法よりも,公開コンテキストベンチマークとコントリビューションレスベンチマークにおいて,注意の正しさと最終認識性能の両面において,一貫して,はるかに優れた性能を示した。
関連論文リスト
- Regularization, Semi-supervision, and Supervision for a Plausible Attention-Based Explanation [0.2499907423888049]
実験的な研究は、アテンションマップがモデル出力の説明として提供されることを仮定している。
近年の研究では、RNNエンコーダの注意重みが入力トークンに広まるため、ほとんど証明できないことが示されている。
注意マップの妥当性を向上させるために,学習対象関数に対する3つの制約を提案する。
論文 参考訳(メタデータ) (2025-01-22T10:17:20Z) - Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - Attention Guidance Mechanism for Handwritten Mathematical Expression
Recognition [20.67011291281534]
手書きの数学的表現認識(HMER)は、複雑な数学的表現のレイアウトのため、画像からテキストへのタスクにおいて困難である。
本研究では,無関係領域における注意重みを明示的に抑制し,適切な部分を強化するための注意誘導機構を提案する。
本手法は, CROHME 2014/2016/2019データセットにおいて, 60.75% / 61.81% / 63.30%の表現認識率を達成し, 既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-04T06:22:17Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - On the Locality of Attention in Direct Speech Translation [0.1749935196721634]
トランスフォーマーは複数のNLPタスクにまたがって最先端の結果を得た。
直接音声翻訳における自己注意の有用性について論じる。
論文 参考訳(メタデータ) (2022-04-19T17:43:37Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - MANGO: A Mask Attention Guided One-Stage Scene Text Spotter [41.66707532607276]
MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:47:49Z) - Boost Image Captioning with Knowledge Reasoning [10.733743535624509]
本稿では,単語ごとの逐次的な記述を生成する際の視覚的注意の正しさを改善するために,単語注意を提案する。
本稿では,知識グラフから抽出した外部知識をエンコーダ・デコーダ・フレームワークに注入し,意味のあるキャプションを容易にする新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-02T12:19:46Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。