Fugu-MT 論文翻訳(概要): MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability

論文の概要: MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability

arxiv url: http://arxiv.org/abs/2408.07081v2
Date: Thu, 15 Aug 2024 04:51:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 15:59:30.728723
Title: MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability
Title（参考訳）: MathBridge:スポークな数学的表現を可読性向上のために$LaTeX$式に変換するための大規模なコーパスデータセット
Authors: Kyudan Jung, Sieun Hyeon, Jeong Youn Kwon, Nam-Joon Kim, Hyun Gon Ryu, Hyuk-Jae Lee, Jaeyoung Do,
Abstract要約: 数式表現をフォーム翻訳に変換するための,最初の広範囲なデータセットであるMathBridgeを紹介する。 MathBridgeは、テキストからLaへの翻訳のための事前訓練された言語モデルの能力を大幅に強化する。
参考スコア（独自算出の注目度）: 10.757551947236879
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding sentences that contain mathematical expressions in text form poses significant challenges. To address this, the importance of converting these expressions into a compiled formula is highlighted. For instance, the expression ``x equals minus b plus or minus the square root of b squared minus four a c, all over two a'' from automatic speech recognition (ASR) is more readily comprehensible when displayed as a compiled formula $x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$. To develop a text-to-formula conversion system, we can break down the process into text-to-LaTeX and LaTeX-to-formula conversions, with the latter managed by various existing LaTeX engines. However, the former approach has been notably hindered by the severe scarcity of text-to-LaTeX paired data, which presents a significant challenge in this field. In this context, we introduce MathBridge, the first extensive dataset for translating mathematical spoken expressions into LaTeX, to establish a robust baseline for future research on text-to-LaTeX translation. MathBridge comprises approximately 23 million LaTeX formulas paired with the corresponding spoken English expressions. Through comprehensive evaluations, including fine-tuning and testing with data, we discovered that MathBridge significantly enhances the capabilities of pretrained language models for text-to-LaTeX translation. Specifically, for the T5-large model, the sacreBLEU score increased from 4.77 to 46.8, demonstrating substantial enhancement. Our findings indicate the need for a new metric, specifically for text-to-LaTeX conversion evaluations.
Abstract（参考訳）: テキスト形式の数学的表現を含む文を理解することは重要な課題である。これを解決するために、これらの式をコンパイル式に変換することの重要性が強調される。例えば、"`x equals minus b plus or minus the square root of b squared 4 a c, all over two a'' from Automatic speech Recognition (ASR)" という式は、コンパイル式 $x = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$ として表示されると、より理解しやすい。テキスト・トゥ・フォーミュラ変換システムを開発するために,テキスト・トゥ・ラテXとLaTeX・ラテX・トゥ・フォーミュラ変換に分割し,後者を既存のLaTeXエンジンで管理する。しかし、従来のアプローチはテキストとLaTeXのペアデータの深刻な不足によって明らかに妨げられ、この分野では大きな課題が提示されている。この文脈では、数式表現をLaTeXに翻訳するための最初の広範なデータセットであるMathBridgeを導入し、テキストからLaTeXへの翻訳研究のための堅牢なベースラインを確立する。 MathBridgeは、約2300万のLaTeX式と対応する英語の表現のペアで構成されている。データによる微調整やテストを含む総合的な評価により,MathBridgeはテキストからLaTeX翻訳のための事前学習言語モデルの能力を大幅に向上することがわかった。具体的には、T5大モデルでは、sareBLEUスコアは4.77から46.8に増加し、大幅に向上した。この結果から,テキスト・トゥ・ラテX変換評価のための新しい指標の必要性が示唆された。

関連論文リスト

MathSpeech: Leveraging Small LMs for Accurate Conversion in Mathematical Speech-to-Formula [10.757551947236879]
MathSpeechは、ASRモデルを小さな言語モデル(sLM)と統合して数学的表現の誤りを修正する新しいパイプラインである。 MathSpeechが有望な大規模言語モデル(LLM)に匹敵する$La$生成機能をデモ MathSpeech は GPT-4o よりも優れていた。
論文参考訳（メタデータ） (2024-12-20T08:13:05Z)
ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文参考訳（メタデータ） (2024-10-24T18:02:37Z)
LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement [11.931911831112357]
LATTEは、式と表の両方のソース抽出精度を改善し、既存の技術とGPT-4Vより優れている。本稿では,認識のための最初の反復的改良フレームワークであるLATTEを提案する。
論文参考訳（メタデータ） (2024-09-21T17:18:49Z)
TeXBLEU: Automatic Metric for Evaluate LaTeX Format [4.337656290539519]
我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
論文参考訳（メタデータ） (2024-09-10T16:54:32Z)
Towards Semantic Markup of Mathematical Documents via User Interaction [0.0]
本稿では,既存の s マクロ定義から文法を自動生成し,それらを解析することで,式の意味的マークアップにアプローチする。また、解析結果を曖昧にするためのGUIベースのツールも提示し、未入力の$lambda$-termsを解析するための文法を用いてその可能性を示す。
論文参考訳（メタデータ） (2024-08-05T12:36:40Z)
MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文参考訳（メタデータ） (2024-04-21T14:03:34Z)
MathWriting: A Dataset For Handwritten Mathematical Expression Recognition [0.9012198585960439]
MathWritingは、これまでで最大のオンライン手書き数式データセットである。 1つのMath Writingサンプルは、タッチスクリーンに書かれた式と対応する式で構成されている。このデータセットは、オフラインのHME認識のためにレンダリング形式で使用することもできる。
論文参考訳（メタデータ） (2024-04-16T16:10:23Z)
MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。しかし、数学的な問題を解く能力は依然として不十分である。高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文参考訳（メタデータ） (2024-03-05T11:42:59Z)
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (2023-10-05T17:52:09Z)
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文参考訳（メタデータ） (2023-09-21T17:45:42Z)
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct [128.89645483139236]
本稿では,Llama-2の数学的推論能力を向上するWizardMathを提案する。 GSM8kではChatGPT-3.5, Claude Instant-1, PaLM-2, Minervaを上回り, 同時にMATHでは Text-davinci, PaLM-1, GPT-3 を上回ります。
論文参考訳（メタデータ） (2023-08-18T14:23:21Z)
Tree-Based Representation and Generation of Natural and Mathematical Language [77.34726150561087]
科学コミュニケーションと教育シナリオにおける数学的言語は重要であるが、比較的研究されている。数学言語に関する最近の研究は、スタンドアローンな数学的表現や、事前訓練された自然言語モデルにおける数学的推論に焦点をあてている。テキストと数学を共同で表現・生成するために,既存の言語モデルに対する一連の修正を提案する。
論文参考訳（メタデータ） (2023-02-15T22:38:34Z)
JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文参考訳（メタデータ） (2022-06-13T17:03:52Z)
Machine Translation of Mathematical Text [0.0]
数学的テキストを含む文書を対象とした機械翻訳システムPolyMath Translatorを実装した。現在の実装は英語をフランス語に翻訳し、数学文の保留テストコーパスでBLEUスコアが53.5に達した。さらに編集することなくPDFにコンパイルできる文書を生成する。
論文参考訳（メタデータ） (2020-10-11T11:59:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。