論文の概要: MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2404.13667v1
- Date: Sun, 21 Apr 2024 14:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:01:50.383870
- Title: MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition
- Title(参考訳): MathNet: 印刷された数学的表現認識のためのデータ中心的アプローチ
- Authors: Felix M. Schmitt-Koopmann, Elaine M. Huang, Hans-Peter Hutter, Thilo Stadelmann, Alireza Darvishy,
- Abstract要約: ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
- 参考スコア(独自算出の注目度): 2.325171167252542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Printed mathematical expression recognition (MER) models are usually trained and tested using LaTeX-generated mathematical expressions (MEs) as input and the LaTeX source code as ground truth. As the same ME can be generated by various different LaTeX source codes, this leads to unwanted variations in the ground truth data that bias test performance results and hinder efficient learning. In addition, the use of only one font to generate the MEs heavily limits the generalization of the reported results to realistic scenarios. We propose a data-centric approach to overcome this problem, and present convincing experimental results: Our main contribution is an enhanced LaTeX normalization to map any LaTeX ME to a canonical form. Based on this process, we developed an improved version of the benchmark dataset im2latex-100k, featuring 30 fonts instead of one. Second, we introduce the real-world dataset realFormula, with MEs extracted from papers. Third, we developed a MER model, MathNet, based on a convolutional vision transformer, with superior results on all four test sets (im2latex-100k, im2latexv2, realFormula, and InftyMDB-1), outperforming the previous state of the art by up to 88.3%.
- Abstract(参考訳): 印刷された数式認識(MER)モデルは、通常、LaTeX生成した数式(ME)を入力として、LaTeXソースコードを基底真理として、訓練され、テストされる。
同じMEを様々なLaTeXソースコードで生成できるため、これは、バイアステストパフォーマンスの結果が得られ、効率的な学習を妨げている、真実データに望ましくない変化をもたらす。
さらに、MEsを生成するために1つのフォントのみを使用することは、報告された結果の一般化を現実的なシナリオに大きく制限する。
我々の主な貢献は、任意のLaTeX MEを標準形式にマッピングする拡張LaTeX正規化である。
このプロセスに基づいて,ベンチマークデータセットim2latex-100kの改良版を開発した。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に,MERモデルであるMathNetを畳み込み型視覚変換器を用いて開発し,4つのテストセット(im2latex-100k,im2latexv2, realFormula, InftyMDB-1)において,最大88.3%の性能向上を実現した。
関連論文リスト
- LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement [11.931911831112357]
LATTEは、式と表の両方のソース抽出精度を改善し、既存の技術とGPT-4Vより優れている。
本稿では,認識のための最初の反復的改良フレームワークであるLATTEを提案する。
論文 参考訳(メタデータ) (2024-09-21T17:18:49Z) - InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - TeXBLEU: Automatic Metric for Evaluate LaTeX Format [4.337656290539519]
我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。
提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
論文 参考訳(メタデータ) (2024-09-10T16:54:32Z) - MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability [10.757551947236879]
数学的な文を公式に翻訳する最初の広範囲なデータセットであるMathBridgeを紹介する。
MathBridgeは、数学的な音声文から公式に変換するための事前訓練された言語モデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-07T18:07:15Z) - ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition [9.389169879626428]
本稿では,グローバルな表現情報をマイニングするための新しい手法であるImplicit Character-Aided Learning(ICAL)を紹介する。
暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。
論文 参考訳(メタデータ) (2024-05-15T02:03:44Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - Machine Translation of Mathematical Text [0.0]
数学的テキストを含む文書を対象とした機械翻訳システムPolyMath Translatorを実装した。
現在の実装は英語をフランス語に翻訳し、数学文の保留テストコーパスでBLEUスコアが53.5に達した。
さらに編集することなくPDFにコンパイルできる文書を生成する。
論文 参考訳(メタデータ) (2020-10-11T11:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。