論文の概要: Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences
- arxiv url: http://arxiv.org/abs/2508.03542v1
- Date: Tue, 05 Aug 2025 15:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.037878
- Title: Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences
- Title(参考訳): 音声からLaTeX:音声方程式と文の変換のための新しいモデルとデータセット
- Authors: Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets,
- Abstract要約: 音声の数学的表現の変換は、厳密に構造化された記号表現への音声の書き起こしを伴う難しい作業である。
66,000人以上の人手による数学的方程式と文のオーディオサンプルからなる、最初の完全にオープンソースな大規模データセットを提示する。
- 参考スコア(独自算出の注目度): 2.7405470973070547
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conversion of spoken mathematical expressions is a challenging task that involves transcribing speech into a strictly structured symbolic representation while addressing the ambiguity inherent in the pronunciation of equations. Although significant progress has been achieved in automatic speech recognition (ASR) and language models (LM), the problem of converting spoken mathematics into LaTeX remains underexplored. This task directly applies to educational and research domains, such as lecture transcription or note creation. Based on ASR post-correction, prior work requires 2 transcriptions, focuses only on isolated equations, has a limited test set, and provides neither training data nor multilingual coverage. To address these issues, we present the first fully open-source large-scale dataset, comprising over 66,000 human-annotated audio samples of mathematical equations and sentences in both English and Russian, drawn from diverse scientific domains. In addition to the ASR post-correction models and few-shot prompting, we apply audio language models, demonstrating comparable character error rate (CER) results on the MathSpeech benchmark (28% vs. 30%) for the equations conversion. In contrast, on the proposed S2L-equations benchmark, our models outperform the MathSpeech model by a substantial margin of more than 40 percentage points, even after accounting for LaTeX formatting artifacts (27% vs. 64%). We establish the first benchmark for mathematical sentence recognition (S2L-sentences) and achieve an equation CER of 40%. This work lays the groundwork for future advances in multimodal AI, with a particular focus on mathematical content recognition.
- Abstract(参考訳): 音声の数学的表現の変換は、方程式の発音に固有のあいまいさに対処しながら、厳密に構造化された記号表現に音声を翻訳する難題である。
自動音声認識(ASR)や言語モデル(LM)では大きな進歩があったが、音声数学をLaTeXに変換するという問題は未解決のままである。
このタスクは、講義の書き起こしやノート作成など、教育や研究の領域に直接適用される。
ASRポストコレクションに基づいて、以前の作業では2つの書き起こしが必要であり、独立した方程式のみに焦点を当て、テストセットが限定され、トレーニングデータも多言語カバレッジも提供されない。
これらの問題に対処するため、我々は、さまざまな科学的領域から抽出された英語とロシア語の数学的方程式と文の人間の注釈付きオーディオサンプルを66,000個以上含む、最初の完全にオープンソースな大規模データセットを提示する。
ASR後補正モデルと少数ショットプロンプトに加えて、音声言語モデルを適用し、方程式変換のMathSpeechベンチマーク(28%対30%)で比較した文字誤り率(CER)の結果を示す。
対照的に、提案したS2L-equationsベンチマークでは、LaTeXフォーマットアーティファクト(27%対64%)を考慮しても、我々のモデルは40パーセント以上のマージンでMathSpeechモデルより優れています。
数式文認識のための最初のベンチマーク(S2L文)を確立し,40%の方程式CERを実現する。
この研究は、数学的コンテンツ認識に特に焦点をあてたマルチモーダルAIの今後の進歩の基盤となる。
関連論文リスト
- MathSpeech: Leveraging Small LMs for Accurate Conversion in Mathematical Speech-to-Formula [10.757551947236879]
MathSpeechは、ASRモデルを小さな言語モデル(sLM)と統合して数学的表現の誤りを修正する新しいパイプラインである。
MathSpeechが有望な大規模言語モデル(LLM)に匹敵する$La$生成機能をデモ
MathSpeech は GPT-4o よりも優れていた。
論文 参考訳(メタデータ) (2024-12-20T08:13:05Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Handling Numeric Expressions in Automatic Speech Recognition [56.972851337263755]
数値表現の認識と形式化のためのケースドとエンド・ツー・エンドのアプローチを比較した。
その結果,適応型エンドツーエンドモデルでは,低レイテンシと推論コストの利点を生かして,競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:46:19Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - A Transformer-based Math Language Model for Handwritten Math Expression
Recognition [7.202733269706245]
数学の記号は、ドットやコマ、0、O、oなどの書体で非常によく似ている。
本稿ではトランスフォーマーに基づく数学言語モデル(TMLM)を提案する。
TMLMは4.42の難易度を達成し、従来の数学言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2021-08-11T03:03:48Z) - Generating Math Word Problems from Equations with Topic Controlling and
Commonsense Enforcement [11.459200644989227]
本稿では,新しいテキスト生成モデルを提案する。
本モデルでは, 方程式を効果的に符号化するフレキシブルなスキームを提案し, 可変オートエンコーダ(VAE)による方程式エンコーダを強化する。
論文 参考訳(メタデータ) (2020-12-14T10:02:11Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。