論文の概要: Towards Scalable Training for Handwritten Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2508.09220v1
- Date: Mon, 11 Aug 2025 19:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.631912
- Title: Towards Scalable Training for Handwritten Mathematical Expression Recognition
- Title(参考訳): 手書き数式認識のためのスケーラブルなトレーニングに向けて
- Authors: Haoyang Li, Jiaqing Li, Jialun Cao, Zongyuan Yang, Yongping Xiong,
- Abstract要約: textbfHand written textbfMathematical textbfExpression textbfRecognition (HMER)はデータの不足によって妨げられている。
複雑で一貫したシーケンスを生成するスケーラブルなデータエンジンを開発した。
比較的小さなHMEデータセットを混合学習するtextttTex80M を用いた HMER モデルである textttTexTeller を提案する。
- 参考スコア(独自算出の注目度): 9.712375769067362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large foundation models have achieved significant performance gains through scalable training on massive datasets. However, the field of \textbf{H}andwritten \textbf{M}athematical \textbf{E}xpression \textbf{R}ecognition (HMER) has been impeded by the scarcity of data, primarily due to the arduous and costly process of manual annotation. To bridge this gap, we propose a novel method integrating limited handwritten formulas with large-scale LaTeX-rendered formulas by developing a scalable data engine to generate complex and consistent LaTeX sequences. With this engine, we built the largest formula dataset to date, termed \texttt{Tex80M}, comprising over 80 million high-quality training instances. Then we propose \texttt{TexTeller}, the first HMER model trained at scale, by mix-training \texttt{Tex80M} with a relatively small HME dataset. The expansive training dataset and our refined pipeline have equipped \texttt{TexTeller} with state-of-the-art (SOTA) performance across nearly all benchmarks. To advance the field, we will openly release our complete model, entire dataset, and full codebase, enabling further research building upon our contributions.
- Abstract(参考訳): 大規模な基盤モデルは、大規模データセットのスケーラブルなトレーニングを通じて、大幅なパフォーマンス向上を実現している。
しかし、textbf{H}and written \textbf{M}athematical \textbf{E}xpression \textbf{R}ecognition (HMER) のフィールドは、主に手動アノテーションの困難でコストのかかるプロセスのために、データの不足によって妨げられている。
このギャップを埋めるために、スケーラブルなデータエンジンを開発し、複雑で一貫したLaTeXシーケンスを生成することで、手書き式を大規模なLaTeXレンダリング式と統合する新しい手法を提案する。
このエンジンでは、これまでで最大の公式データセットである‘texttt{Tex80M} を構築し、8000万以上の高品質なトレーニングインスタンスを構成しました。
次に,比較的小さなHMEデータセットを混合学習することで,大規模に訓練された最初のHMERモデルである‘texttt{TexTeller}を提案する。
拡張トレーニングデータセットと洗練されたパイプラインは、ほぼすべてのベンチマークで、最先端(SOTA)パフォーマンスを備えた‘texttt{TexTeller} を備えています。
この分野を進めるために、私たちは、私たちの完全なモデル、データセット全体、そして完全なコードベースをオープンにリリースします。
関連論文リスト
- TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。
TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。
拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文 参考訳(メタデータ) (2025-02-05T03:13:25Z) - DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - MathWriting: A Dataset For Handwritten Mathematical Expression Recognition [0.9012198585960439]
MathWritingは、これまでで最大のオンライン手書き数式データセットである。
1つのMath Writingサンプルは、タッチスクリーンに書かれた式と対応する式で構成されている。
このデータセットは、オフラインのHME認識のためにレンダリング形式で使用することもできる。
論文 参考訳(メタデータ) (2024-04-16T16:10:23Z) - Hypertext Entity Extraction in Webpage [112.56734676713721]
textbfMoE ベースの textbfEntity textbfExtraction textbfFramework (textitMoEEF) を導入する。
また、textitHEEDにおけるハイパーテキスト機能の有効性と、textitMoEEFにおけるモデルコンポーネントについて分析する。
論文 参考訳(メタデータ) (2024-03-04T03:21:40Z) - How to Choose Pretrained Handwriting Recognition Models for Single
Writer Fine-Tuning [23.274139396706264]
近年のDeep Learning-based Handwriting Text Recognition (HTR) の進歩は、現代の写本や歴史文書に顕著な性能を持つモデルを生み出している。
これらのモデルは、言語、紙の支持、インク、著者の筆跡など、独特の特徴を持つ写本に適用した場合、同じパフォーマンスを得るのに苦労している。
本稿では,手書きテキスト生成モデルを用いて得られた,大規模で実際のベンチマークデータセットと合成データセットについて考察する。
我々は,5行の実際の微調整行数で,原稿を効果的に書き起こし可能なHTRモデルを得るための,そのようなデータの最も関連性の高い特徴を定量的に示す。
論文 参考訳(メタデータ) (2023-05-04T07:00:28Z) - Unsupervised Training Data Generation of Handwritten Formulas using
Generative Adversarial Networks with Self-Attention [3.785514121306353]
本稿では,文書から派生した数学的表現の大規模な学習例を作成するシステムを提案する。
そこで本研究では, 適応方程式を手書き公式に翻訳する, 注目に基づく新たな生成逆ネットワークを提案する。
このアプローチによって生成されたデータセットには何十万もの公式が含まれており、より複雑なモデルの設計や事前訓練に最適である。
論文 参考訳(メタデータ) (2021-06-17T12:27:18Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。