Fugu-MT 論文翻訳(概要): A Transformer-based Math Language Model for Handwritten Math Expression Recognition

論文の概要: A Transformer-based Math Language Model for Handwritten Math Expression Recognition

arxiv url: http://arxiv.org/abs/2108.05002v1
Date: Wed, 11 Aug 2021 03:03:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-12 13:43:31.656915
Title: A Transformer-based Math Language Model for Handwritten Math Expression Recognition
Title（参考訳）: 手書き数式認識のためのトランスフォーマーに基づく数学言語モデル
Authors: Huy Quang Ung, Cuong Tuan Nguyen, Hung Tuan Nguyen, Thanh-Nghia Truong and Masaki Nakagawa
Abstract要約: 数学の記号は、ドットやコマ、0、O、oなどの書体で非常によく似ている。本稿ではトランスフォーマーに基づく数学言語モデル(TMLM)を提案する。 TMLMは4.42の難易度を達成し、従来の数学言語モデルよりも優れていた。
参考スコア（独自算出の注目度）: 7.202733269706245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Handwritten mathematical expressions (HMEs) contain ambiguities in their interpretations, even for humans sometimes. Several math symbols are very similar in the writing style, such as dot and comma or 0, O, and o, which is a challenge for HME recognition systems to handle without using contextual information. To address this problem, this paper presents a Transformer-based Math Language Model (TMLM). Based on the self-attention mechanism, the high-level representation of an input token in a sequence of tokens is computed by how it is related to the previous tokens. Thus, TMLM can capture long dependencies and correlations among symbols and relations in a mathematical expression (ME). We trained the proposed language model using a corpus of approximately 70,000 LaTeX sequences provided in CROHME 2016. TMLM achieved the perplexity of 4.42, which outperformed the previous math language models, i.e., the N-gram and recurrent neural network-based language models. In addition, we combine TMLM into a stochastic context-free grammar-based HME recognition system using a weighting parameter to re-rank the top-10 best candidates. The expression rates on the testing sets of CROHME 2016 and CROHME 2019 were improved by 2.97 and 0.83 percentage points, respectively.
Abstract（参考訳）: 手書きの数学的表現(HME)は、人間の解釈にあいまいさを含むことがある。いくつかの数学記号は、ドットやコマ、0、O、oなどの書体で非常によく似ており、文脈情報を使わずにHME認識システムが扱うことは困難である。そこで本研究では,トランスフォーマーを用いた数学言語モデル(TMLM)を提案する。自己確認機構に基づいて、トークン列における入力トークンの高レベル表現を、その前のトークンとの関連性によって算出する。したがって、TMLMは、数学的表現(ME)における記号と関係の間の長い依存関係と相関を捉えることができる。 CROHME 2016で提供された約70,000個のLaTeX配列のコーパスを用いて,提案言語モデルを訓練した。 TMLMは4.42の難易度を達成し、従来の数学言語モデル、すなわちN-gramとリカレントニューラルネットワークベースの言語モデルを上回った。さらに,TMLMを確率的文脈自由文法に基づくHME認識システムに結合し,重み付けパラメータを用いてトップ10候補を再ランクする。 crohme 2016 と crohme 2019 の試験セットの表現率をそれぞれ 2.97 % と 0.83 %向上させた。

関連論文リスト

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。 NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文参考訳（メタデータ） (2024-07-16T04:52:39Z)
PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。 PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文参考訳（メタデータ） (2024-07-10T15:42:58Z)
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文参考訳（メタデータ） (2024-07-07T15:16:19Z)
ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition [9.389169879626428]
本稿では,グローバルな表現情報をマイニングするための新しい手法であるImplicit Character-Aided Learning(ICAL)を紹介する。暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。
論文参考訳（メタデータ） (2024-05-15T02:03:44Z)
Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文参考訳（メタデータ） (2024-01-03T02:44:02Z)
Exploring Equation as a Better Intermediate Meaning Representation for Numerical Reasoning [53.2491163874712]
我々は数値推論の問題を解くために方程式をIMRとして利用する。本稿では、方程式(ブリッジ)の生成を分解したブースティング数値推論法を提案する。本手法では,GSM8K,SVAMP,Algebraデータセットの2.2%,0.9%,1.7%の性能向上を実現している。
論文参考訳（メタデータ） (2023-08-21T09:35:33Z)
Offline Handwritten Mathematical Recognition using Adversarial Learning and Transformers [3.9220281834178463]
オフラインのHMERは、オンラインのHMERに比べてはるかに難しい問題と見なされることが多い。本稿では,対向学習を用いたエンコーダ・デコーダモデルを提案する。最新のCROHME 2019テストセットを4%改善しました。
論文参考訳（メタデータ） (2022-08-20T11:45:02Z)
Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。 HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文参考訳（メタデータ） (2022-03-03T09:57:19Z)
Mathematical Word Problem Generation from Commonsense Knowledge Graph and Equations [27.063577644162358]
実世界のシナリオにおいて,コモンセンス知識グラフと方程式から多様なMWPを生成するエンド・ツー・エンドのニューラルモデルを開発した。提案したモデルは、記号方程式とコモンセンス知識のエッジ付きレヴィグラフから両方の表現を学習する。教育用ゴールドスタンダードセットと大規模MWPセットの実験により,本手法がMWP生成タスクよりも優れていることが示された。
論文参考訳（メタデータ） (2020-10-13T06:31:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。