Fugu-MT 論文翻訳(概要): MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition

論文の概要: MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition

arxiv url: http://arxiv.org/abs/2404.13667v1
Date: Sun, 21 Apr 2024 14:03:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 18:01:50.383870
Title: MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition
Title（参考訳）: MathNet: 印刷された数学的表現認識のためのデータ中心的アプローチ
Authors: Felix M. Schmitt-Koopmann, Elaine M. Huang, Hans-Peter Hutter, Thilo Stadelmann, Alireza Darvishy,
Abstract要約: ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
参考スコア（独自算出の注目度）: 2.325171167252542
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Printed mathematical expression recognition (MER) models are usually trained and tested using LaTeX-generated mathematical expressions (MEs) as input and the LaTeX source code as ground truth. As the same ME can be generated by various different LaTeX source codes, this leads to unwanted variations in the ground truth data that bias test performance results and hinder efficient learning. In addition, the use of only one font to generate the MEs heavily limits the generalization of the reported results to realistic scenarios. We propose a data-centric approach to overcome this problem, and present convincing experimental results: Our main contribution is an enhanced LaTeX normalization to map any LaTeX ME to a canonical form. Based on this process, we developed an improved version of the benchmark dataset im2latex-100k, featuring 30 fonts instead of one. Second, we introduce the real-world dataset realFormula, with MEs extracted from papers. Third, we developed a MER model, MathNet, based on a convolutional vision transformer, with superior results on all four test sets (im2latex-100k, im2latexv2, realFormula, and InftyMDB-1), outperforming the previous state of the art by up to 88.3%.
Abstract（参考訳）: 印刷された数式認識(MER)モデルは、通常、LaTeX生成した数式(ME)を入力として、LaTeXソースコードを基底真理として、訓練され、テストされる。同じMEを様々なLaTeXソースコードで生成できるため、これは、バイアステストパフォーマンスの結果が得られ、効率的な学習を妨げている、真実データに望ましくない変化をもたらす。さらに、MEsを生成するために1つのフォントのみを使用することは、報告された結果の一般化を現実的なシナリオに大きく制限する。我々の主な貢献は、任意のLaTeX MEを標準形式にマッピングする拡張LaTeX正規化である。このプロセスに基づいて,ベンチマークデータセットim2latex-100kの改良版を開発した。第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。第3に,MERモデルであるMathNetを畳み込み型視覚変換器を用いて開発し,4つのテストセット(im2latex-100k,im2latexv2, realFormula, InftyMDB-1)において,最大88.3%の性能向上を実現した。

関連論文リスト

NeuRaLaTeX: A machine learning library written in pure LaTeX [15.978130916451295]
我々は,完全に韻律で書かれた最初のディープラーニングライブラリであるNeuRaLaを紹介する。ドキュメントの一部として、ニューラルネットワークのアーキテクチャとその損失関数を指定することができる。ドキュメントがコンパイルされると、コンパイラはトレーニングデータを生成し、ロードし、ネットワークをトレーニングし、実験を行い、図を生成する。論文はコンパイルに48時間かかり、NeuRaLaのソースコード全体が論文のソースコードに含まれている。
論文参考訳（メタデータ） (2025-03-31T15:05:19Z)
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis [56.00885545573299]
高品質なテキスト画像合成のための総合的なスイートであるLeX-Artを紹介する。当社のアプローチは,Deepseek-R1に基づく高品質なデータ合成パイプラインの構築という,データ中心のパラダイムに従っています。我々は、堅牢なプロンプトエンリッチメントモデルであるLeX-Enhancerを開発し、LeX-FLUXとLeX-Luminaの2つのテキスト・ツー・イメージモデルを訓練する。
論文参考訳（メタデータ） (2025-03-27T17:56:15Z)
LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement [11.931911831112357]
LATTEは、式と表の両方のソース抽出精度を改善し、既存の技術とGPT-4Vより優れている。本稿では,認識のための最初の反復的改良フレームワークであるLATTEを提案する。
論文参考訳（メタデータ） (2024-09-21T17:18:49Z)
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文参考訳（メタデータ） (2024-09-19T08:41:21Z)
TeXBLEU: Automatic Metric for Evaluate LaTeX Format [4.337656290539519]
我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
論文参考訳（メタデータ） (2024-09-10T16:54:32Z)
MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability [10.757551947236879]
数学的な文を公式に翻訳する最初の広範囲なデータセットであるMathBridgeを紹介する。 MathBridgeは、数学的な音声文から公式に変換するための事前訓練された言語モデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-08-07T18:07:15Z)
ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition [9.389169879626428]
本稿では,グローバルな表現情報をマイニングするための新しい手法であるImplicit Character-Aided Learning(ICAL)を紹介する。暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。
論文参考訳（メタデータ） (2024-05-15T02:03:44Z)
RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文参考訳（メタデータ） (2024-05-11T16:22:00Z)
MathWriting: A Dataset For Handwritten Mathematical Expression Recognition [0.9012198585960439]
MathWritingは、これまでで最大のオンライン手書き数式データセットである。 1つのMath Writingサンプルは、タッチスクリーンに書かれた式と対応する式で構成されている。このデータセットは、オフラインのHME認識のためにレンダリング形式で使用することもできる。
論文参考訳（メタデータ） (2024-04-16T16:10:23Z)
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (2023-10-05T17:52:09Z)
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文参考訳（メタデータ） (2023-09-21T17:45:42Z)
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。 GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文参考訳（メタデータ） (2023-08-18T14:23:21Z)
GENIUS: Sketch-based Language Model Pre-training via Extreme and Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。 genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文参考訳（メタデータ） (2022-11-18T16:39:45Z)
Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。 HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文参考訳（メタデータ） (2022-03-03T09:57:19Z)
Machine Translation of Mathematical Text [0.0]
数学的テキストを含む文書を対象とした機械翻訳システムPolyMath Translatorを実装した。現在の実装は英語をフランス語に翻訳し、数学文の保留テストコーパスでBLEUスコアが53.5に達した。さらに編集することなくPDFにコンパイルできる文書を生成する。
論文参考訳（メタデータ） (2020-10-11T11:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。