論文の概要: MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability
- arxiv url: http://arxiv.org/abs/2408.07081v2
- Date: Thu, 15 Aug 2024 04:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 15:59:30.728723
- Title: MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability
- Title(参考訳): MathBridge:スポークな数学的表現を可読性向上のために$LaTeX$式に変換するための大規模なコーパスデータセット
- Authors: Kyudan Jung, Sieun Hyeon, Jeong Youn Kwon, Nam-Joon Kim, Hyun Gon Ryu, Hyuk-Jae Lee, Jaeyoung Do,
- Abstract要約: 数式表現をフォーム翻訳に変換するための,最初の広範囲なデータセットであるMathBridgeを紹介する。
MathBridgeは、テキストからLaへの翻訳のための事前訓練された言語モデルの能力を大幅に強化する。
- 参考スコア(独自算出の注目度): 10.757551947236879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding sentences that contain mathematical expressions in text form poses significant challenges. To address this, the importance of converting these expressions into a compiled formula is highlighted. For instance, the expression ``x equals minus b plus or minus the square root of b squared minus four a c, all over two a'' from automatic speech recognition (ASR) is more readily comprehensible when displayed as a compiled formula $x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$. To develop a text-to-formula conversion system, we can break down the process into text-to-LaTeX and LaTeX-to-formula conversions, with the latter managed by various existing LaTeX engines. However, the former approach has been notably hindered by the severe scarcity of text-to-LaTeX paired data, which presents a significant challenge in this field. In this context, we introduce MathBridge, the first extensive dataset for translating mathematical spoken expressions into LaTeX, to establish a robust baseline for future research on text-to-LaTeX translation. MathBridge comprises approximately 23 million LaTeX formulas paired with the corresponding spoken English expressions. Through comprehensive evaluations, including fine-tuning and testing with data, we discovered that MathBridge significantly enhances the capabilities of pretrained language models for text-to-LaTeX translation. Specifically, for the T5-large model, the sacreBLEU score increased from 4.77 to 46.8, demonstrating substantial enhancement. Our findings indicate the need for a new metric, specifically for text-to-LaTeX conversion evaluations.
- Abstract(参考訳): テキスト形式の数学的表現を含む文を理解することは重要な課題である。
これを解決するために、これらの式をコンパイル式に変換することの重要性が強調される。
例えば、"`x equals minus b plus or minus the square root of b squared 4 a c, all over two a'' from Automatic speech Recognition (ASR)" という式は、コンパイル式 $x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$ として表示されると、より理解しやすい。
テキスト・トゥ・フォーミュラ変換システムを開発するために,テキスト・トゥ・ラテXとLaTeX・ラテX・トゥ・フォーミュラ変換に分割し,後者を既存のLaTeXエンジンで管理する。
しかし、従来のアプローチはテキストとLaTeXのペアデータの深刻な不足によって明らかに妨げられ、この分野では大きな課題が提示されている。
この文脈では、数式表現をLaTeXに翻訳するための最初の広範なデータセットであるMathBridgeを導入し、テキストからLaTeXへの翻訳研究のための堅牢なベースラインを確立する。
MathBridgeは、約2300万のLaTeX式と対応する英語の表現のペアで構成されている。
データによる微調整やテストを含む総合的な評価により,MathBridgeはテキストからLaTeX翻訳のための事前学習言語モデルの能力を大幅に向上することがわかった。
具体的には、T5大モデルでは、sareBLEUスコアは4.77から46.8に増加し、大幅に向上した。
この結果から,テキスト・トゥ・ラテX変換評価のための新しい指標の必要性が示唆された。
関連論文リスト
- ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement [11.931911831112357]
LATTEは、式と表の両方のソース抽出精度を改善し、既存の技術とGPT-4Vより優れている。
本稿では,認識のための最初の反復的改良フレームワークであるLATTEを提案する。
論文 参考訳(メタデータ) (2024-09-21T17:18:49Z) - TeXBLEU: Automatic Metric for Evaluate LaTeX Format [4.337656290539519]
我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。
提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
論文 参考訳(メタデータ) (2024-09-10T16:54:32Z) - Towards Semantic Markup of Mathematical Documents via User Interaction [0.0]
本稿では,既存の s マクロ定義から文法を自動生成し,それらを解析することで,式の意味的マークアップにアプローチする。
また、解析結果を曖昧にするためのGUIベースのツールも提示し、未入力の$lambda$-termsを解析するための文法を用いてその可能性を示す。
論文 参考訳(メタデータ) (2024-08-05T12:36:40Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - WizardMath: Empowering Mathematical Reasoning for Large Language Models
via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。
GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文 参考訳(メタデータ) (2023-08-18T14:23:21Z) - Tree-Based Representation and Generation of Natural and Mathematical
Language [77.34726150561087]
科学コミュニケーションと教育シナリオにおける数学的言語は重要であるが、比較的研究されている。
数学言語に関する最近の研究は、スタンドアローンな数学的表現や、事前訓練された自然言語モデルにおける数学的推論に焦点をあてている。
テキストと数学を共同で表現・生成するために,既存の言語モデルに対する一連の修正を提案する。
論文 参考訳(メタデータ) (2023-02-15T22:38:34Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - Machine Translation of Mathematical Text [0.0]
数学的テキストを含む文書を対象とした機械翻訳システムPolyMath Translatorを実装した。
現在の実装は英語をフランス語に翻訳し、数学文の保留テストコーパスでBLEUスコアが53.5に達した。
さらに編集することなくPDFにコンパイルできる文書を生成する。
論文 参考訳(メタデータ) (2020-10-11T11:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。