論文の概要: Syntax-Aware Network for Handwritten Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2203.01601v2
- Date: Sat, 5 Mar 2022 07:38:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 12:21:38.654858
- Title: Syntax-Aware Network for Handwritten Mathematical Expression Recognition
- Title(参考訳): 手書き数式認識のための構文認識ネットワーク
- Authors: Ye Yuan, Xiao Liu, Wondimu Dikubab, Hui Liu, Zhilong Ji, Zhongqin Wu,
Xiang Bai
- Abstract要約: 手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
- 参考スコア(独自算出の注目度): 53.130826547287626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten mathematical expression recognition (HMER) is a challenging task
that has many potential applications. Recent methods for HMER have achieved
outstanding performance with an encoder-decoder architecture. However, these
methods adhere to the paradigm that the prediction is made "from one character
to another", which inevitably yields prediction errors due to the complicated
structures of mathematical expressions or crabbed handwritings. In this paper,
we propose a simple and efficient method for HMER, which is the first to
incorporate syntax information into an encoder-decoder network. Specifically,
we present a set of grammar rules for converting the LaTeX markup sequence of
each expression into a parsing tree; then, we model the markup sequence
prediction as a tree traverse process with a deep neural network. In this way,
the proposed method can effectively describe the syntax context of expressions,
avoiding the structure prediction errors of HMER. Experiments on two benchmark
datasets demonstrate that our method achieves significantly better recognition
performance than prior arts. To further validate the effectiveness of our
method, we create a large-scale dataset consisting of 100k handwritten
mathematical expression images acquired from ten thousand writers. The source
code, new dataset, and pre-trained models of this work will be publicly
available.
- Abstract(参考訳): 手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
しかし、これらの手法は「ある文字から別の文字へ」予測されるというパラダイムを踏襲しており、数学的表現やカニ足跡の複雑な構造によって必然的に予測誤差が生じる。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
具体的には,各表現のラテックスマークアップシーケンスを解析木に変換するための文法規則のセットを示し,そのマークアップシーケンス予測をディープニューラルネットワークを用いてツリートラバースプロセスとしてモデル化する。
このように,提案手法はhmerの構造予測誤差を回避し,表現の構文文脈を効果的に記述することができる。
2つのベンチマークデータセットを用いた実験により,本手法の認識性能は先行技術よりも有意に向上した。
本手法の有効性をさらに検証するために,1万の書き手から取得した10万の手書き数式画像からなる大規模データセットを作成する。
この作業のソースコード、新しいデータセット、事前トレーニングされたモデルが公開される。
関連論文リスト
- Object Recognition as Next Token Prediction [105.334222837841]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Semantic Graph Representation Learning for Handwritten Mathematical
Expression Recognition [57.60390958736775]
セマンティック・インタラクション・ラーニング(SIL)の簡易かつ効率的な手法を提案する。
まず,統計的シンボル共起確率に基づく意味グラフを構築する。
次に、視覚的および分類的特徴を意味空間に投影する意味認識モジュール(SAM)を設計する。
本手法は, CROHMEとHME100Kの両方のデータセットにおいて, 先行技術よりも優れた認識性能を実現する。
論文 参考訳(メタデータ) (2023-08-21T06:23:41Z) - Recognizing Handwritten Mathematical Expressions of Vertical Addition
and Subtraction [2.945134482768693]
本研究は,垂直形式の加法式と減算式からなる手書き初歩数式データセットを提案する。
また、MNISTデータセットを拡張して、この構造で人工画像を生成する。
解析では, 物体検出アルゴリズム YOLO v7, YOLO v8, YOLO-NAS, NanoDet, FCOS を用いて, 数学的シンボルの同定を行った。
論文 参考訳(メタデータ) (2023-08-10T18:39:35Z) - Spatial Attention and Syntax Rule Enhanced Tree Decoder for Offine
Handwritten Mathematical Expression Recognition [12.656673677551778]
SS-TD(Spatial Attention and Syntax Rule Enhanced Tree Decoder)と呼ばれる新しいモデルを提案する。
我々のモデルは木構造を効果的に記述し、出力表現の精度を高めることができる。
実験により、SS-TDはCROHME 14/16/19データセットの以前のモデルよりも優れた認識性能が得られることが示された。
論文 参考訳(メタデータ) (2023-03-13T12:59:53Z) - A Transformer Architecture for Online Gesture Recognition of
Mathematical Expressions [0.0]
トランスフォーマーアーキテクチャは、グリフストロークに対応するオンライン手書きジェスチャーから表現木を構築するためのエンドツーエンドモデルを提供する。
注意機構は、表現の基本的な構文をエンコードし、学習し、強制するためにうまく利用された。
エンコーダは初めて、目に見えないオンラインの時間的データトークンによって、無限に大きな語彙を形成します。
論文 参考訳(メタデータ) (2022-11-04T17:55:55Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Unsupervised Training Data Generation of Handwritten Formulas using
Generative Adversarial Networks with Self-Attention [3.785514121306353]
本稿では,文書から派生した数学的表現の大規模な学習例を作成するシステムを提案する。
そこで本研究では, 適応方程式を手書き公式に翻訳する, 注目に基づく新たな生成逆ネットワークを提案する。
このアプローチによって生成されたデータセットには何十万もの公式が含まれており、より複雑なモデルの設計や事前訓練に最適である。
論文 参考訳(メタデータ) (2021-06-17T12:27:18Z) - Disambiguating Symbolic Expressions in Informal Documents [2.423990103106667]
約33,000項目のデータセットを提示します。
arxiv.orgから得られたソースに予め訓練されたトランスフォーマー言語モデルを用いた方法論を記述する。
我々は,シンボリック表現の構文と意味を考慮に入れて,複数の専用手法を用いてモデルを評価する。
論文 参考訳(メタデータ) (2021-01-25T10:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。