論文の概要: When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2207.11463v1
- Date: Sat, 23 Jul 2022 08:39:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:25:47.648487
- Title: When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition
- Title(参考訳): 数量化がhmerと合致する場合:手書き数式認識のための数量認識ネットワーク
- Authors: Bohan Li, Ye Yuan, Dingkang Liang, Xiao Liu, Zhilong Ji, Jinfeng Bai,
Wenyu Liu, Xiang Bai
- Abstract要約: 我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
- 参考スコア(独自算出の注目度): 57.51793420986745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, most handwritten mathematical expression recognition (HMER) methods
adopt the encoder-decoder networks, which directly predict the markup sequences
from formula images with the attention mechanism. However, such methods may
fail to accurately read formulas with complicated structure or generate long
markup sequences, as the attention results are often inaccurate due to the
large variance of writing styles or spatial layouts. To alleviate this problem,
we propose an unconventional network for HMER named Counting-Aware Network
(CAN), which jointly optimizes two tasks: HMER and symbol counting.
Specifically, we design a weakly-supervised counting module that can predict
the number of each symbol class without the symbol-level position annotations,
and then plug it into a typical attention-based encoder-decoder model for HMER.
Experiments on the benchmark datasets for HMER validate that both joint
optimization and counting results are beneficial for correcting the prediction
errors of encoder-decoder models, and CAN consistently outperforms the
state-of-the-art methods. In particular, compared with an encoder-decoder model
for HMER, the extra time cost caused by the proposed counting module is
marginal. The source code is available at https://github.com/LBH1024/CAN.
- Abstract(参考訳): 近年,ほとんどの手書き式認識(HMER)法では,注意機構を備えた公式画像からマークアップシーケンスを直接予測するエンコーダデコーダネットワークが採用されている。
しかし、書体や空間レイアウトのばらつきが大きいため注意結果が不正確な場合が多いため、複雑な構造を持つ式を正確に読み取ることができない場合や、長いマークアップシーケンスを生成する場合がある。
この問題を軽減するために,HMERとシンボルカウントという2つのタスクを共同で最適化する,Counting-Aware Network (CAN) という非従来型ネットワークを提案する。
具体的には、シンボルレベルの位置アノテーションなしで各シンボルクラスの数を予測できる弱い教師付きカウントモジュールを設計し、hmer用の典型的な注意に基づくエンコーダ・デコーダモデルに接続する。
HMERのベンチマークデータセットの実験では、エンコーダデコーダモデルの予測エラーを修正するために、共同最適化とカウント結果の両方が有用であることが確認され、CANは最先端の手法を一貫して上回っている。
特に、HMERのエンコーダデコーダモデルと比較して、提案したカウントモジュールによる余分な時間コストは限界である。
ソースコードはhttps://github.com/lbh1024/canで入手できる。
関連論文リスト
- Benchmarking Large Language Models with Integer Sequence Generation Tasks [1.3108652488669736]
本稿では,大規模言語モデル(LLM)がオンラインシーケンス百科事典(OEIS)から整数列を計算するコードを書かなければならない,新たなベンチマークを提案する。
ベンチマークの結果、OpenAI、Anthropic、Meta、Googleの他のフロンティアモデルよりも、簡単かつハードな整数シーケンス間の精度と不正なレートで、o1シリーズのモデルの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-11-07T02:05:43Z) - NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。
本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。
NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文 参考訳(メタデータ) (2024-07-16T04:52:39Z) - PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - An Intelligent-Detection Network for Handwritten Mathematical Expression
Recognition [0.9790236766474201]
HMERのためのIntelligent-Detection Network (IDN) は、オブジェクト検出技術を利用して従来のエンコーダ・デコーダ法とは異なる。
具体的には,デジタルオブジェクトとシンボルオブジェクトの両方を正確に検出できる拡張YOLOv7ネットワークを開発した。
実験により,提案手法は複雑な手書き数学的表現を認識する上で,エンコーダ・デコーダネットワークよりも優れていた。
論文 参考訳(メタデータ) (2023-11-26T12:01:50Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - DenseBAM-GI: Attention Augmented DeneseNet with momentum aided GRU for
HMER [4.518012967046983]
手書き数式における記号間の長さと空間的関係を正確に決定することは困難である。
本研究では,HMERのための新しいエンコーダデコーダアーキテクチャ(DenseBAM-GI)を提案する。
提案モデルは,表現認識率(Exprate)の観点から,最先端モデルに匹敵する性能を有する,効率的で軽量なアーキテクチャである。
論文 参考訳(メタデータ) (2023-06-28T18:12:23Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - ConvMath: A Convolutional Sequence Network for Mathematical Expression
Recognition [11.645568743440087]
ConvMathの性能は、103556サンプルを含むIM2LATEX-100Kというオープンデータセットで評価される。
提案手法は,従来の手法よりも精度と効率性が向上した。
論文 参考訳(メタデータ) (2020-12-23T12:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。