論文の概要: MathWriting: A Dataset For Handwritten Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2404.10690v1
- Date: Tue, 16 Apr 2024 16:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:14:57.602108
- Title: MathWriting: A Dataset For Handwritten Mathematical Expression Recognition
- Title(参考訳): MathWriting: 手書きの数学的表現認識のためのデータセット
- Authors: Philippe Gervais, Asya Fadeeva, Andrii Maksai,
- Abstract要約: MathWritingは、これまでで最大のオンライン手書き数式データセットである。
230kの人書きサンプルと、さらに400kの合成サンプルで構成されている。
- 参考スコア(独自算出の注目度): 0.9012198585960439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MathWriting, the largest online handwritten mathematical expression dataset to date. It consists of 230k human-written samples and an additional 400k synthetic ones. MathWriting can also be used for offline HME recognition and is larger than all existing offline HME datasets like IM2LATEX-100K. We introduce a benchmark based on MathWriting data in order to advance research on both online and offline HME recognition.
- Abstract(参考訳): これまでで最大のオンライン手書き数式データセットであるMathWritingを紹介した。
230kの人書きサンプルと、さらに400kの合成サンプルで構成されている。
MathWritingはオフラインのHME認識にも使用することができ、IM2LATEX-100Kのような既存のすべてのオフラインHMEデータセットよりも大きい。
オンラインとオフラインの両方のHME認識の研究を進めるために,MathWritingデータに基づくベンチマークを導入する。
関連論文リスト
- InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - Discovering symbolic expressions with parallelized tree search [59.92040079807524]
記号回帰は、データから簡潔で解釈可能な数学的表現を発見する能力のおかげで、科学研究において重要な役割を果たす。
既存のアルゴリズムは、複雑性の問題に対処する際の精度と効率の重要なボトルネックに直面してきた。
本稿では,限定データから汎用数学的表現を効率的に抽出する並列木探索(PTS)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition [9.389169879626428]
本稿では,グローバルな表現情報をマイニングするための新しい手法であるImplicit Character-Aided Learning(ICAL)を紹介する。
暗黙的な文字情報のモデリングと利用により、icalは手書きの数学的表現をより正確かつ文脈に配慮した解釈を実現する。
論文 参考訳(メタデータ) (2024-05-15T02:03:44Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Learning Multiplex Representations on Text-Attributed Graphs with One Language Model Encoder [55.24276913049635]
テキスト分散グラフ上での多重表現学習のための新しいフレームワークMETAGを提案する。
既存の手法とは対照的に、MeTAGは1つのテキストエンコーダを使用して関係性間の共有知識をモデル化する。
学術分野と電子商取引分野の5つのグラフにおいて,9つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-10-10T14:59:22Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - Recognizing Handwritten Mathematical Expressions of Vertical Addition
and Subtraction [2.945134482768693]
本研究は,垂直形式の加法式と減算式からなる手書き初歩数式データセットを提案する。
また、MNISTデータセットを拡張して、この構造で人工画像を生成する。
解析では, 物体検出アルゴリズム YOLO v7, YOLO v8, YOLO-NAS, NanoDet, FCOS を用いて, 数学的シンボルの同定を行った。
論文 参考訳(メタデータ) (2023-08-10T18:39:35Z) - Self-Supervised Pretraining of Graph Neural Network for the Retrieval of
Related Mathematical Expressions in Scientific Articles [8.942112181408156]
本稿では,機械学習に基づく数学的表現の検索手法を提案する。
埋め込み学習と自己教師型学習を組み合わせた教師なし表現学習タスクを設計する。
arXiv.orgで発行された90,000以上の出版物から、9900万以上の数学的表現を持つ巨大なデータセットを収集します。
論文 参考訳(メタデータ) (2022-08-22T12:11:30Z) - Offline Handwritten Mathematical Recognition using Adversarial Learning
and Transformers [3.9220281834178463]
オフラインのHMERは、オンラインのHMERに比べてはるかに難しい問題と見なされることが多い。
本稿では,対向学習を用いたエンコーダ・デコーダモデルを提案する。
最新のCROHME 2019テストセットを4%改善しました。
論文 参考訳(メタデータ) (2022-08-20T11:45:02Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。