論文の概要: Handwritten Mathematical Expression Recognition with Bidirectionally
Trained Transformer
- arxiv url: http://arxiv.org/abs/2105.02412v2
- Date: Sun, 9 May 2021 17:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 11:27:38.395975
- Title: Handwritten Mathematical Expression Recognition with Bidirectionally
Trained Transformer
- Title(参考訳): 双方向学習トランスフォーマによる手書き数式認識
- Authors: Wenqi Zhao, Liangcai Gao, Zuoyu Yan, Shuai Peng, Lin Du, Ziyin Zhang
- Abstract要約: トランスデコーダデコーダを使用してRNNベースのデコーダを置き換える。
実験により, CROHME 2014における現在の最先端手法のExpRateを2.23%改善した。
- 参考スコア(独自算出の注目度): 2.952085248753861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encoder-decoder models have made great progress on handwritten mathematical
expression recognition recently. However, it is still a challenge for existing
methods to assign attention to image features accurately. Moreover, those
encoder-decoder models usually adopt RNN-based models in their decoder part,
which makes them inefficient in processing long $\LaTeX{}$ sequences. In this
paper, a transformer-based decoder is employed to replace RNN-based ones, which
makes the whole model architecture very concise. Furthermore, a novel training
strategy is introduced to fully exploit the potential of the transformer in
bidirectional language modeling. Compared to several methods that do not use
data augmentation, experiments demonstrate that our model improves the ExpRate
of current state-of-the-art methods on CROHME 2014 by 2.23%. Similarly, on
CROHME 2016 and CROHME 2019, we improve the ExpRate by 1.92% and 2.28%
respectively.
- Abstract(参考訳): エンコーダ・デコーダモデルは最近手書き数式認識に大きな進歩を遂げている。
しかし,既存の手法では画像特徴に正確に注意を向けることが課題である。
さらに、これらのエンコーダデコーダモデルは、通常、デコーダ部でRNNベースのモデルを採用するため、長い$\LaTeX{}$シーケンスを処理するのに非効率である。
本稿では、rnnベースのデコーダをトランスフォーマベースのデコーダで置き換えることにより、モデルアーキテクチャ全体を非常に簡潔にする。
さらに、双方向言語モデリングにおけるトランスフォーマーの可能性を完全に活用するために、新しいトレーニング戦略を導入する。
データ拡張を使用しないいくつかの手法と比較して、我々のモデルはCROHME 2014における現在の最先端手法のExpRateを2.23%改善することを示した。
同様に、CROHME 2016とCROHME 2019では、ExpRateをそれぞれ1.92%と2.28%改善しています。
関連論文リスト
- ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization [59.72782742378666]
本稿では,Reward-based Noise Optimization (ReNO) を提案する。
20-50秒の計算予算の中で、ReNOによって強化されたワンステップモデルは、現在のすべてのオープンソーステキスト・トゥ・イメージ・モデルの性能を一貫して上回った。
論文 参考訳(メタデータ) (2024-06-06T17:56:40Z) - Arbitrary-Length Generalization for Addition in a Tiny Transformer [55.2480439325792]
本稿では,トランスフォーマーモデルを用いて,未知の桁数に対する2桁数の追加を一般化する学習手法を提案する。
提案手法では, 右から左へ処理を行う自己回帰生成手法を用いて, 多数の値を追加するための共通手動手法を模倣する。
論文 参考訳(メタデータ) (2024-05-31T03:01:16Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - DenseBAM-GI: Attention Augmented DeneseNet with momentum aided GRU for
HMER [4.518012967046983]
手書き数式における記号間の長さと空間的関係を正確に決定することは困難である。
本研究では,HMERのための新しいエンコーダデコーダアーキテクチャ(DenseBAM-GI)を提案する。
提案モデルは,表現認識率(Exprate)の観点から,最先端モデルに匹敵する性能を有する,効率的で軽量なアーキテクチャである。
論文 参考訳(メタデータ) (2023-06-28T18:12:23Z) - Inflected Forms Are Redundant in Question Generation Models [27.49894653349779]
本稿では,エンコーダ・デコーダ・フレームワークを用いた質問生成の性能向上手法を提案する。
まず,エンコーダの入力から入力された単語を識別し,根語に置き換える。
次に,エンコード・デコーダ・フレームワークにおける以下の動作の組合せとしてQGを適用することを提案する。質問語の生成,ソースシーケンスからの単語のコピー,単語変換型の生成である。
論文 参考訳(メタデータ) (2023-01-01T13:08:11Z) - CoMER: Modeling Coverage for Transformer-based Handwritten Mathematical
Expression Recognition [4.812445272764651]
トランスフォーマーをベースとしたエンコーダデコーダアーキテクチャは近年,手書きの数学的表現の認識において大きな進歩を遂げている。
過去のステップのアライメント情報を記録したカバレッジ情報は,RNNモデルにおいて有効であることが証明されている。
トランスデコーダのカバレッジ情報を利用するモデルであるCoMERを提案する。
論文 参考訳(メタデータ) (2022-07-10T07:59:23Z) - End-to-End Transformer Based Model for Image Captioning [1.4303104706989949]
Transformerベースのモデルはイメージキャプションをひとつのステージに統合し、エンドツーエンドのトレーニングを実現する。
モデルは138.2%(シングルモデル)と141.0%(4モデルのアンサンブル)の新しい最先端性能を達成する
論文 参考訳(メタデータ) (2022-03-29T08:47:46Z) - Handwritten Mathematical Expression Recognition via Attention
Aggregation based Bi-directional Mutual Learning [13.696706205837234]
本稿では,アテンションアグリゲーションに基づく双方向相互学習ネットワーク(ABM)を提案する。
推論フェーズでは、モデルが既に2つの逆方向から知識を学習していることを考えると、推論にはL2Rブランチのみを使用する。
提案手法は,CROHME 2014 では 56.85 %,CROHME 2016 では 52.92 %,CROHME 2019 では 53.96 % である。
論文 参考訳(メタデータ) (2021-12-07T09:53:40Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。