論文の概要: MathWriting: A Dataset For Handwritten Mathematical Expression Recognition
- arxiv url: http://arxiv.org/abs/2404.10690v1
- Date: Tue, 16 Apr 2024 16:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 16:14:57.602108
- Title: MathWriting: A Dataset For Handwritten Mathematical Expression Recognition
- Title(参考訳): MathWriting: 手書きの数学的表現認識のためのデータセット
- Authors: Philippe Gervais, Asya Fadeeva, Andrii Maksai,
- Abstract要約: MathWritingは、これまでで最大のオンライン手書き数式データセットである。
230kの人書きサンプルと、さらに400kの合成サンプルで構成されている。
- 参考スコア(独自算出の注目度): 0.9012198585960439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MathWriting, the largest online handwritten mathematical expression dataset to date. It consists of 230k human-written samples and an additional 400k synthetic ones. MathWriting can also be used for offline HME recognition and is larger than all existing offline HME datasets like IM2LATEX-100K. We introduce a benchmark based on MathWriting data in order to advance research on both online and offline HME recognition.
- Abstract(参考訳): これまでで最大のオンライン手書き数式データセットであるMathWritingを紹介した。
230kの人書きサンプルと、さらに400kの合成サンプルで構成されている。
MathWritingはオフラインのHME認識にも使用することができ、IM2LATEX-100Kのような既存のすべてのオフラインHMEデータセットよりも大きい。
オンラインとオフラインの両方のHME認識の研究を進めるために,MathWritingデータに基づくベンチマークを導入する。
関連論文リスト
- MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - Improving Text Embeddings with Large Language Models [63.503320030117145]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
プロプライエタリなLLMを利用して、100近い言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成します。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale
Pretraining Corpus for Math [52.66190891388847]
約950億のトークンからなる多様で高品質な数学中心コーパスであるtextscMathPileを紹介します。
精巧なデータ収集と処理には、複雑な事前処理が含まれていました。
われわれのtextscMathPileは、言語モデルの数学的推論能力を高めるのに役立つことを願っている。
論文 参考訳(メタデータ) (2023-12-28T16:55:40Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - Recognizing Handwritten Mathematical Expressions of Vertical Addition
and Subtraction [2.945134482768693]
本研究は,垂直形式の加法式と減算式からなる手書き初歩数式データセットを提案する。
また、MNISTデータセットを拡張して、この構造で人工画像を生成する。
解析では, 物体検出アルゴリズム YOLO v7, YOLO v8, YOLO-NAS, NanoDet, FCOS を用いて, 数学的シンボルの同定を行った。
論文 参考訳(メタデータ) (2023-08-10T18:39:35Z) - Text-Augmented Open Knowledge Graph Completion via Pre-Trained Language
Models [53.09723678623779]
本稿では,高品質なクエリプロンプトを自動的に生成し,大規模テキストコーパスからサポート情報を取得するためのTAGREALを提案する。
その結果、TAGREALは2つのベンチマークデータセット上で最先端のパフォーマンスを達成することがわかった。
TAGREALは、限られたトレーニングデータであっても、既存の埋め込みベース、グラフベース、およびPLMベースの手法よりも優れた性能を有することが判明した。
論文 参考訳(メタデータ) (2023-05-24T22:09:35Z) - Self-Supervised Pretraining of Graph Neural Network for the Retrieval of
Related Mathematical Expressions in Scientific Articles [8.942112181408156]
本稿では,機械学習に基づく数学的表現の検索手法を提案する。
埋め込み学習と自己教師型学習を組み合わせた教師なし表現学習タスクを設計する。
arXiv.orgで発行された90,000以上の出版物から、9900万以上の数学的表現を持つ巨大なデータセットを収集します。
論文 参考訳(メタデータ) (2022-08-22T12:11:30Z) - Offline Handwritten Mathematical Recognition using Adversarial Learning
and Transformers [3.9220281834178463]
オフラインのHMERは、オンラインのHMERに比べてはるかに難しい問題と見なされることが多い。
本稿では,対向学習を用いたエンコーダ・デコーダモデルを提案する。
最新のCROHME 2019テストセットを4%改善しました。
論文 参考訳(メタデータ) (2022-08-20T11:45:02Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - Sketch and Scale: Geo-distributed tSNE and UMAP [75.44887265789056]
地理的に分散したデータセット上で機械学習分析を実行することは、急速に発生する問題である。
私たちはSketch and Scale(SnS)という新しいフレームワークを紹介します。
これはCount Sketchデータ構造を利用して、エッジノード上のデータを圧縮し、マスターノード上の縮小サイズスケッチを集約し、サマリ上でバニラtSNEまたはUMAPを実行する。
我々は、この技術が完全に並列で、線形に時間にスケールし、メモリに対数的に分散し、通信し、世界中の複数のデータセンターにまたがる数百万、数十億のデータポイントでデータセットを解析できることを示す。
論文 参考訳(メタデータ) (2020-11-11T22:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。