Fugu-MT 論文翻訳(概要): ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition

論文の概要: ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition

arxiv url: http://arxiv.org/abs/2405.09032v4
Date: Thu, 07 Nov 2024 10:06:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.389548
Title: ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition
Title（参考訳）: IC:手書き数式認識の高度化のための暗黙的文字支援学習
Authors: Jianhua Zhu, Liangcai Gao, Wenqi Zhao,
Abstract要約: 本稿では,グローバルな表現情報をマイニングするための新しい手法であるImplicit Character-Aided Learning(ICAL)を紹介する。暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。
参考スコア（独自算出の注目度）: 9.389169879626428
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Significant progress has been made in the field of handwritten mathematical expression recognition, while existing encoder-decoder methods are usually difficult to model global information in $LaTeX$. Therefore, this paper introduces a novel approach, Implicit Character-Aided Learning (ICAL), to mine the global expression information and enhance handwritten mathematical expression recognition. Specifically, we propose the Implicit Character Construction Module (ICCM) to predict implicit character sequences and use a Fusion Module to merge the outputs of the ICCM and the decoder, thereby producing corrected predictions. By modeling and utilizing implicit character information, ICAL achieves a more accurate and context-aware interpretation of handwritten mathematical expressions. Experimental results demonstrate that ICAL notably surpasses the state-of-the-art(SOTA) models, improving the expression recognition rate (ExpRate) by 2.25\%/1.81\%/1.39\% on the CROHME 2014/2016/2019 datasets respectively, and achieves a remarkable 69.06\% on the challenging HME100k test set. We make our code available on the GitHub: https://github.com/qingzhenduyu/ICAL
Abstract（参考訳）: 従来のエンコーダ・デコーダ法では,大域的な情報をLaTeX$でモデル化することは困難である。そこで本研究では,グローバルな表現情報をマイニングし,手書きの数学的表現認識を強化するための新しい手法であるImplicit Character-Aided Learning(ICAL)を提案する。具体的には,暗黙的な文字列の予測を行うImplicit Character Construction Module (ICCM)を提案し,ICCMとデコーダの出力を融合するためにFusion Moduleを用いて修正した予測を生成する。暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。実験結果から, CROHME 2014/2016/2019データセットの表現認識率(ExpRate)を2.25\%/1.81\%/1.39\%向上し, 挑戦的なHME100kテストセットにおいて, 69.06\%を達成した。私たちはGitHubでコードを公開しています。

関連論文リスト

Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art [83.95594027644124]
我々は,この問題を認識タスクとみなし,新しいベンチマークASCIIEvalを構築した。精巧な分類木を持つ3Kサンプルに加えて、さらなる拡張のためのトレーニングセットもカバーしている。テキスト入力が与えられた言語モデルは、ASCIIアートの概念に基づいて視覚的知覚能力を示す。画像入力において,オープンソースのMLLMは,微細なテキスト認識と集合的視覚知覚のトレードオフに悩まされていることが明らかになった。
論文参考訳（メタデータ） (2024-10-02T16:46:01Z)
NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。 NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文参考訳（メタデータ） (2024-07-16T04:52:39Z)
PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。 PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文参考訳（メタデータ） (2024-07-10T15:42:58Z)
MathWriting: A Dataset For Handwritten Mathematical Expression Recognition [0.9012198585960439]
MathWritingは、これまでで最大のオンライン手書き数式データセットである。 1つのMath Writingサンプルは、タッチスクリーンに書かれた式と対応する式で構成されている。このデータセットは、オフラインのHME認識のためにレンダリング形式で使用することもできる。
論文参考訳（メタデータ） (2024-04-16T16:10:23Z)
Semantic Graph Representation Learning for Handwritten Mathematical Expression Recognition [57.60390958736775]
セマンティック・インタラクション・ラーニング(SIL)の簡易かつ効率的な手法を提案する。まず,統計的シンボル共起確率に基づく意味グラフを構築する。次に、視覚的および分類的特徴を意味空間に投影する意味認識モジュール(SAM)を設計する。本手法は, CROHMEとHME100Kの両方のデータセットにおいて, 先行技術よりも優れた認識性能を実現する。
論文参考訳（メタデータ） (2023-08-21T06:23:41Z)
DenseBAM-GI: Attention Augmented DeneseNet with momentum aided GRU for HMER [4.518012967046983]
手書き数式における記号間の長さと空間的関係を正確に決定することは困難である。本研究では,HMERのための新しいエンコーダデコーダアーキテクチャ(DenseBAM-GI)を提案する。提案モデルは,表現認識率(Exprate)の観点から,最先端モデルに匹敵する性能を有する,効率的で軽量なアーキテクチャである。
論文参考訳（メタデータ） (2023-06-28T18:12:23Z)
Offline Handwritten Mathematical Recognition using Adversarial Learning and Transformers [3.9220281834178463]
オフラインのHMERは、オンラインのHMERに比べてはるかに難しい問題と見なされることが多い。本稿では,対向学習を用いたエンコーダ・デコーダモデルを提案する。最新のCROHME 2019テストセットを4%改善しました。
論文参考訳（メタデータ） (2022-08-20T11:45:02Z)
When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。 HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文参考訳（メタデータ） (2022-07-23T08:39:32Z)
Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。 HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文参考訳（メタデータ） (2022-03-03T09:57:19Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
A Transformer-based Math Language Model for Handwritten Math Expression Recognition [7.202733269706245]
数学の記号は、ドットやコマ、0、O、oなどの書体で非常によく似ている。本稿ではトランスフォーマーに基づく数学言語モデル(TMLM)を提案する。 TMLMは4.42の難易度を達成し、従来の数学言語モデルよりも優れていた。
論文参考訳（メタデータ） (2021-08-11T03:03:48Z)
Recognizing Handwritten Mathematical Expressions as LaTex Sequences Using a Multiscale Robust Neural Network [3.9164573079514016]
手書きの数学的表現と出力シーケンスを認識するために,ロバストなマルチスケールニューラルネットワークを提案する。可視化の追加により、モデルの認識プロセスが詳細に示される。本モデルの結果から, 最先端モデルの方がロバスト性が高く, 誤差が少なく, 精度も高いことが示唆された。
論文参考訳（メタデータ） (2020-02-26T12:39:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。