論文の概要: Improving Attention-Based Handwritten Mathematical Expression
Recognition with Scale Augmentation and Drop Attention
- arxiv url: http://arxiv.org/abs/2007.10092v1
- Date: Mon, 20 Jul 2020 13:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 14:08:27.283183
- Title: Improving Attention-Based Handwritten Mathematical Expression
Recognition with Scale Augmentation and Drop Attention
- Title(参考訳): スケール拡張とドロップアテンションによる注意に基づく手書き数式認識の改善
- Authors: Zhe Li, Lianwen Jin, Songxuan Lai, Yecheng Zhu
- Abstract要約: 手書き数式認識(HMER)は手書き数式認識において重要な研究方向である。
HMERの性能は数式(ME)の二次元構造に苦しむ
本稿では,大規模化と縮小を考慮した高性能HMERモデルを提案する。
- 参考スコア(独自算出の注目度): 35.82648516972362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten mathematical expression recognition (HMER) is an important
research direction in handwriting recognition. The performance of HMER suffers
from the two-dimensional structure of mathematical expressions (MEs). To
address this issue, in this paper, we propose a high-performance HMER model
with scale augmentation and drop attention. Specifically, tackling ME with
unstable scale in both horizontal and vertical directions, scale augmentation
improves the performance of the model on MEs of various scales. An
attention-based encoder-decoder network is used for extracting features and
generating predictions. In addition, drop attention is proposed to further
improve performance when the attention distribution of the decoder is not
precise. Compared with previous methods, our method achieves state-of-the-art
performance on two public datasets of CROHME 2014 and CROHME 2016.
- Abstract(参考訳): 手書き数式認識(HMER)は手書き数式認識において重要な研究方向である。
HMERの性能は数式(ME)の2次元構造に悩まされている。
この問題に対処するため,本稿では,スケール拡張と注意の低下を伴う高性能hmerモデルを提案する。
具体的には、水平方向と垂直方向の両方で不安定なスケールで私に取り組み、スケール拡張は様々なスケールのmesにおけるモデルの性能を向上させる。
注意に基づくエンコーダデコーダネットワークを用いて特徴を抽出し,予測を生成する。
さらに,デコーダの注意分布が正確でない場合に,さらなる性能向上を図るために,ドロップアテンションを提案する。
従来の手法と比較して, CROHME 2014 と CROHME 2016 の2つの公開データセットに対して, 最先端の性能を実現する。
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Attention Guidance Mechanism for Handwritten Mathematical Expression
Recognition [20.67011291281534]
手書きの数学的表現認識(HMER)は、複雑な数学的表現のレイアウトのため、画像からテキストへのタスクにおいて困難である。
本研究では,無関係領域における注意重みを明示的に抑制し,適切な部分を強化するための注意誘導機構を提案する。
本手法は, CROHME 2014/2016/2019データセットにおいて, 60.75% / 61.81% / 63.30%の表現認識率を達成し, 既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-04T06:22:17Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Semantic Graph Representation Learning for Handwritten Mathematical
Expression Recognition [57.60390958736775]
セマンティック・インタラクション・ラーニング(SIL)の簡易かつ効率的な手法を提案する。
まず,統計的シンボル共起確率に基づく意味グラフを構築する。
次に、視覚的および分類的特徴を意味空間に投影する意味認識モジュール(SAM)を設計する。
本手法は, CROHMEとHME100Kの両方のデータセットにおいて, 先行技術よりも優れた認識性能を実現する。
論文 参考訳(メタデータ) (2023-08-21T06:23:41Z) - DenseBAM-GI: Attention Augmented DeneseNet with momentum aided GRU for
HMER [4.518012967046983]
手書き数式における記号間の長さと空間的関係を正確に決定することは困難である。
本研究では,HMERのための新しいエンコーダデコーダアーキテクチャ(DenseBAM-GI)を提案する。
提案モデルは,表現認識率(Exprate)の観点から,最先端モデルに匹敵する性能を有する,効率的で軽量なアーキテクチャである。
論文 参考訳(メタデータ) (2023-06-28T18:12:23Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - GraphCoCo: Graph Complementary Contrastive Learning [65.89743197355722]
グラフコントラスト学習(GCL)は、手作業によるアノテーションの監督なしに、グラフ表現学習(GRL)において有望な性能を示した。
本稿では,この課題に対処するため,グラフココというグラフ補完型コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T02:58:36Z) - Transferring Dual Stochastic Graph Convolutional Network for Facial
Micro-expression Recognition [7.62031665958404]
本稿では,2つのグラフ畳み込みネットワーク(GCN)モデルについて述べる。
マイクロ圧縮画像からより識別性の高い特徴を抽出するグラフ構築法と二重グラフ畳み込みネットワークを提案する。
提案手法は,最近リリースされたMMEWベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-10T07:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。