論文の概要: PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer
- arxiv url: http://arxiv.org/abs/2407.07764v1
- Date: Wed, 10 Jul 2024 15:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 16:02:46.525746
- Title: PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer
- Title(参考訳): PosFormer: 位置フォレスト変換器を用いた複雑な手書き数学的表現の認識
- Authors: Tongkun Guan, Chengyu Lin, Wei Shen, Xiaokang Yang,
- Abstract要約: 手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
- 参考スコア(独自算出の注目度): 51.260384040953326
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handwritten Mathematical Expression Recognition (HMER) has wide applications in human-machine interaction scenarios, such as digitized education and automated offices. Recently, sequence-based models with encoder-decoder architectures have been commonly adopted to address this task by directly predicting LaTeX sequences of expression images. However, these methods only implicitly learn the syntax rules provided by LaTeX, which may fail to describe the position and hierarchical relationship between symbols due to complex structural relations and diverse handwriting styles. To overcome this challenge, we propose a position forest transformer (PosFormer) for HMER, which jointly optimizes two tasks: expression recognition and position recognition, to explicitly enable position-aware symbol feature representation learning. Specifically, we first design a position forest that models the mathematical expression as a forest structure and parses the relative position relationships between symbols. Without requiring extra annotations, each symbol is assigned a position identifier in the forest to denote its relative spatial position. Second, we propose an implicit attention correction module to accurately capture attention for HMER in the sequence-based decoder architecture. Extensive experiments validate the superiority of PosFormer, which consistently outperforms the state-of-the-art methods 2.03%/1.22%/2.00%, 1.83%, and 4.62% gains on the single-line CROHME 2014/2016/2019, multi-line M2E, and complex MNE datasets, respectively, with no additional latency or computational cost. Code is available at https://github.com/SJTU-DeepVisionLab/PosFormer.
- Abstract(参考訳): 手書き数学的表現認識(HMER)は、デジタル教育や自動化オフィスなどの人間と機械の相互作用シナリオに広く応用されている。
近年,表現画像のLaTeXシーケンスを直接予測することで,エンコーダ・デコーダアーキテクチャを用いたシーケンスベースモデルが広く採用されている。
しかし、これらの手法はLaTeXが提供する構文規則のみを暗黙的に学習し、複雑な構造的関係と多様な手書きスタイルによってシンボルの位置と階層的関係を記述できない可能性がある。
この課題を克服するために,HMER のための位置森林変換器 (PosFormer) を提案する。
具体的には、まず、数学的表現を森林構造としてモデル化し、シンボル間の相対的な位置関係を解析する位置森を設計する。
追加のアノテーションを必要とせずに、各シンボルはその相対的な空間位置を示すために森の位置識別子が割り当てられる。
第2に,シーケンシャルベースデコーダアーキテクチャにおけるHMERの注意を正確に捉えるために,暗黙の注意補正モジュールを提案する。
広範な実験によりPosFormerの優位性が検証され、これは最先端の手法である2.03%/1.22%/2.00%、1.83%、および4.62%の利益を1行のCROHME 2014/2016/2019、複数行のM2E、複雑なMNEデータセットにおいて、追加のレイテンシや計算コストなしで継続的に上回っている。
コードはhttps://github.com/SJTU-DeepVisionLab/PosFormerで入手できる。
関連論文リスト
- ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition [9.389169879626428]
本稿では,グローバルな表現情報をマイニングするための新しい手法であるImplicit Character-Aided Learning(ICAL)を紹介する。
暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。
論文 参考訳(メタデータ) (2024-05-15T02:03:44Z) - Semantic Graph Representation Learning for Handwritten Mathematical
Expression Recognition [57.60390958736775]
セマンティック・インタラクション・ラーニング(SIL)の簡易かつ効率的な手法を提案する。
まず,統計的シンボル共起確率に基づく意味グラフを構築する。
次に、視覚的および分類的特徴を意味空間に投影する意味認識モジュール(SAM)を設計する。
本手法は, CROHMEとHME100Kの両方のデータセットにおいて, 先行技術よりも優れた認識性能を実現する。
論文 参考訳(メタデータ) (2023-08-21T06:23:41Z) - A Transformer Architecture for Online Gesture Recognition of
Mathematical Expressions [0.0]
トランスフォーマーアーキテクチャは、グリフストロークに対応するオンライン手書きジェスチャーから表現木を構築するためのエンドツーエンドモデルを提供する。
注意機構は、表現の基本的な構文をエンコードし、学習し、強制するためにうまく利用された。
エンコーダは初めて、目に見えないオンラインの時間的データトークンによって、無限に大きな語彙を形成します。
論文 参考訳(メタデータ) (2022-11-04T17:55:55Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - CDistNet: Perceiving Multi-Domain Character Distance for Robust Text
Recognition [87.3894423816705]
本稿では,MDCDP (Multi-Domain Character Distance Perception) と呼ばれる新しいモジュールを提案する。
MDCDPは位置埋め込みを使用して、クロスアテンションメカニズムに従って視覚的特徴と意味的特徴の両方を問合せする。
我々は、複数のMDCDPを積み重ねたCDistNetを開発し、徐々に正確な距離モデリングをガイドする。
論文 参考訳(メタデータ) (2021-11-22T06:27:29Z) - Semantic Parsing in Task-Oriented Dialog with Recursive Insertion-based
Encoder [6.507504084891086]
本稿では,タスク指向対話における意味解析のための再帰型Insertion-based entity recognition(RINE)手法を提案する。
RINEは,対話型セマンティック解析ベンチマークTOPの低リソース版と高リソース版において,最先端のマッチング精度を実現する。
提案手法は推論時のシーケンス・ツー・シーケンス・モデルよりも2-3.5倍高速である。
論文 参考訳(メタデータ) (2021-09-09T18:23:45Z) - EDSL: An Encoder-Decoder Architecture with Symbol-Level Features for
Printed Mathematical Expression Recognition [23.658113675853546]
シンボルレベルの特徴を持つエンコーダデコーダを省略したEという新しい手法を提案し,画像から印刷された数学的表現を識別する。
Eは92.7%と89.0%の評価を達成しており、これは最先端の手法よりも3.47%と4.04%高い。
論文 参考訳(メタデータ) (2020-07-06T03:53:52Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。