論文の概要: Syntax-Aware Network for Handwritten Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2203.01601v2
- Date: Sat, 5 Mar 2022 07:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 12:21:38.654858
- Title: Syntax-Aware Network for Handwritten Mathematical Expression Recognition
- Title(参考訳): 手書き数式認識のための構文認識ネットワーク
- Authors: Ye Yuan, Xiao Liu, Wondimu Dikubab, Hui Liu, Zhilong Ji, Zhongqin Wu,
Xiang Bai
- Abstract要約: 手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
- 参考スコア(独自算出の注目度): 53.130826547287626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten mathematical expression recognition (HMER) is a challenging task
that has many potential applications. Recent methods for HMER have achieved
outstanding performance with an encoder-decoder architecture. However, these
methods adhere to the paradigm that the prediction is made "from one character
to another", which inevitably yields prediction errors due to the complicated
structures of mathematical expressions or crabbed handwritings. In this paper,
we propose a simple and efficient method for HMER, which is the first to
incorporate syntax information into an encoder-decoder network. Specifically,
we present a set of grammar rules for converting the LaTeX markup sequence of
each expression into a parsing tree; then, we model the markup sequence
prediction as a tree traverse process with a deep neural network. In this way,
the proposed method can effectively describe the syntax context of expressions,
avoiding the structure prediction errors of HMER. Experiments on two benchmark
datasets demonstrate that our method achieves significantly better recognition
performance than prior arts. To further validate the effectiveness of our
method, we create a large-scale dataset consisting of 100k handwritten
mathematical expression images acquired from ten thousand writers. The source
code, new dataset, and pre-trained models of this work will be publicly
available.
- Abstract(参考訳): 手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
しかし、これらの手法は「ある文字から別の文字へ」予測されるというパラダイムを踏襲しており、数学的表現やカニ足跡の複雑な構造によって必然的に予測誤差が生じる。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
具体的には,各表現のラテックスマークアップシーケンスを解析木に変換するための文法規則のセットを示し,そのマークアップシーケンス予測をディープニューラルネットワークを用いてツリートラバースプロセスとしてモデル化する。
このように,提案手法はhmerの構造予測誤差を回避し,表現の構文文脈を効果的に記述することができる。
2つのベンチマークデータセットを用いた実験により,本手法の認識性能は先行技術よりも有意に向上した。
本手法の有効性をさらに検証するために,1万の書き手から取得した10万の手書き数式画像からなる大規模データセットを作成する。
この作業のソースコード、新しいデータセット、事前トレーニングされたモデルが公開される。
関連論文リスト
- On Eliciting Syntax from Language Models via Hashing [19.872554909401316]
教師なし構文解析は、生のテキストから構文構造を推論することを目的としている。
本稿では,本機能を利用して生テキストから解析木を推定する可能性について検討する。
本手法は,事前学習した言語モデルから高品質な構文解析木を低コストで取得する上で,有効かつ効率的であることを示す。
論文 参考訳(メタデータ) (2024-10-05T08:06:19Z) - NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。
本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。
NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文 参考訳(メタデータ) (2024-07-16T04:52:39Z) - PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition [9.389169879626428]
本稿では,グローバルな表現情報をマイニングするための新しい手法であるImplicit Character-Aided Learning(ICAL)を紹介する。
暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。
論文 参考訳(メタデータ) (2024-05-15T02:03:44Z) - Spatial Attention and Syntax Rule Enhanced Tree Decoder for Offine
Handwritten Mathematical Expression Recognition [12.656673677551778]
SS-TD(Spatial Attention and Syntax Rule Enhanced Tree Decoder)と呼ばれる新しいモデルを提案する。
我々のモデルは木構造を効果的に記述し、出力表現の精度を高めることができる。
実験により、SS-TDはCROHME 14/16/19データセットの以前のモデルよりも優れた認識性能が得られることが示された。
論文 参考訳(メタデータ) (2023-03-13T12:59:53Z) - A Transformer Architecture for Online Gesture Recognition of
Mathematical Expressions [0.0]
トランスフォーマーアーキテクチャは、グリフストロークに対応するオンライン手書きジェスチャーから表現木を構築するためのエンドツーエンドモデルを提供する。
注意機構は、表現の基本的な構文をエンコードし、学習し、強制するためにうまく利用された。
エンコーダは初めて、目に見えないオンラインの時間的データトークンによって、無限に大きな語彙を形成します。
論文 参考訳(メタデータ) (2022-11-04T17:55:55Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Unsupervised Training Data Generation of Handwritten Formulas using
Generative Adversarial Networks with Self-Attention [3.785514121306353]
本稿では,文書から派生した数学的表現の大規模な学習例を作成するシステムを提案する。
そこで本研究では, 適応方程式を手書き公式に翻訳する, 注目に基づく新たな生成逆ネットワークを提案する。
このアプローチによって生成されたデータセットには何十万もの公式が含まれており、より複雑なモデルの設計や事前訓練に最適である。
論文 参考訳(メタデータ) (2021-06-17T12:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。