論文の概要: TAMER: Tree-Aware Transformer for Handwritten Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2408.08578v2
- Date: Wed, 11 Dec 2024 13:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:59:13.052504
- Title: TAMER: Tree-Aware Transformer for Handwritten Mathematical Expression Recognition
- Title(参考訳): TAMER:手書き数式認識のための木認識変換器
- Authors: Jianhua Zhu, Wenqi Zhao, Yu Li, Xingjian Hu, Liangcai Gao,
- Abstract要約: 我々は手書き数式認識のための新しいモデルTAMER(Tree-Aware Transformer)を提案する。
TAMERは、シーケンス予測とツリー構造予測を協調的に最適化することで、シーケンス復号とツリー復号モデルの両方の利点を組み合わせる。
CROHMEデータセットの実験結果は、TAMERが従来のシーケンスデコーディングモデルより優れていることを示している。
- 参考スコア(独自算出の注目度): 17.855238221599635
- License:
- Abstract: Handwritten Mathematical Expression Recognition (HMER) has extensive applications in automated grading and office automation. However, existing sequence-based decoding methods, which directly predict $\LaTeX$ sequences, struggle to understand and model the inherent tree structure of $\LaTeX$ and often fail to ensure syntactic correctness in the decoded results. To address these challenges, we propose a novel model named TAMER (Tree-Aware Transformer) for handwritten mathematical expression recognition. TAMER introduces an innovative Tree-aware Module while maintaining the flexibility and efficient training of Transformer. TAMER combines the advantages of both sequence decoding and tree decoding models by jointly optimizing sequence prediction and tree structure prediction tasks, which enhances the model's understanding and generalization of complex mathematical expression structures. During inference, TAMER employs a Tree Structure Prediction Scoring Mechanism to improve the structural validity of the generated $\LaTeX$ sequences. Experimental results on CROHME datasets demonstrate that TAMER outperforms traditional sequence decoding and tree decoding models, especially in handling complex mathematical structures, achieving state-of-the-art (SOTA) performance.
- Abstract(参考訳): 手書き数学的表現認識(HMER)は、自動階調とオフィス自動化に広く応用されている。
しかし、$\LaTeX$シーケンスを直接予測する既存のシーケンスベースのデコード手法は、$\LaTeX$の固有のツリー構造を理解し、モデル化するのに苦労し、デコードされた結果の構文的正しさを保証するのに失敗することが多い。
これらの課題に対処するため,手書き数式認識のためのTAMER(Tree-Aware Transformer)という新しいモデルを提案する。
TAMERは、Transformerの柔軟性と効率的なトレーニングを維持しながら、革新的なTree-Aware Moduleを導入している。
TAMERは、シーケンス予測とツリー構造予測タスクを協調的に最適化することで、シーケンス復号とツリー復号の両方の利点を組み合わせることで、複雑な数学的表現構造の理解と一般化を促進する。
推論中、TAMERは、生成された$\LaTeX$シーケンスの構造的妥当性を改善するために、ツリー構造予測のメカニズムを使用する。
CROHMEデータセットを用いた実験結果から、TAMERは従来のシーケンスデコーディングやツリーデコーディングモデルよりも優れており、特に複雑な数学的構造を扱う場合、最先端(SOTA)のパフォーマンスが達成されている。
関連論文リスト
- Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。
DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文 参考訳(メタデータ) (2023-06-01T14:46:34Z) - Spatial Attention and Syntax Rule Enhanced Tree Decoder for Offine
Handwritten Mathematical Expression Recognition [12.656673677551778]
SS-TD(Spatial Attention and Syntax Rule Enhanced Tree Decoder)と呼ばれる新しいモデルを提案する。
我々のモデルは木構造を効果的に記述し、出力表現の精度を高めることができる。
実験により、SS-TDはCROHME 14/16/19データセットの以前のモデルよりも優れた認識性能が得られることが示された。
論文 参考訳(メタデータ) (2023-03-13T12:59:53Z) - Structure-Unified M-Tree Coding Solver for MathWord Problem [57.825176412485504]
従来,数式表現の2次木構造を考慮に入れたモデルでは,性能が向上した。
本稿では、出力構造を統一するために、任意のM枝(M-tree)を持つ木を適用した構造統一M-Tree符号化(S-UMCr)を提案する。
広く使われているMAWPSとMath23Kデータセットの実験結果は、SUMC-rが複数の最先端モデルを上回るだけでなく、低リソース条件下でもはるかに優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-10-22T12:20:36Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - Semantic Parsing in Task-Oriented Dialog with Recursive Insertion-based
Encoder [6.507504084891086]
本稿では,タスク指向対話における意味解析のための再帰型Insertion-based entity recognition(RINE)手法を提案する。
RINEは,対話型セマンティック解析ベンチマークTOPの低リソース版と高リソース版において,最先端のマッチング精度を実現する。
提案手法は推論時のシーケンス・ツー・シーケンス・モデルよりも2-3.5倍高速である。
論文 参考訳(メタデータ) (2021-09-09T18:23:45Z) - SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。
新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文 参考訳(メタデータ) (2020-12-29T11:37:43Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z) - DRTS Parsing with Structure-Aware Encoding and Decoding [28.711318411470497]
最先端のパフォーマンスは、ニューラルシーケンス・ツー・シーケンスモデルによって達成できる。
構造情報を統合するために,エンコーダとデコーダの両フェーズにおける構造認識モデルを提案する。
論文 参考訳(メタデータ) (2020-05-14T12:09:23Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。