論文の概要: MathSpeech: Leveraging Small LMs for Accurate Conversion in Mathematical Speech-to-Formula
- arxiv url: http://arxiv.org/abs/2412.15655v1
- Date: Fri, 20 Dec 2024 08:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:22:10.305631
- Title: MathSpeech: Leveraging Small LMs for Accurate Conversion in Mathematical Speech-to-Formula
- Title(参考訳): MathSpeech: 数学的音声からフォーミュラへの正確な変換のための小型LMの活用
- Authors: Sieun Hyeon, Kyudan Jung, Jaehee Won, Nam-Joon Kim, Hyun Gon Ryu, Hyuk-Jae Lee, Jaeyoung Do,
- Abstract要約: MathSpeechは、ASRモデルを小さな言語モデル(sLM)と統合して数学的表現の誤りを修正する新しいパイプラインである。
MathSpeechが有望な大規模言語モデル(LLM)に匹敵する$La$生成機能をデモ
MathSpeech は GPT-4o よりも優れていた。
- 参考スコア(独自算出の注目度): 10.757551947236879
- License:
- Abstract: In various academic and professional settings, such as mathematics lectures or research presentations, it is often necessary to convey mathematical expressions orally. However, reading mathematical expressions aloud without accompanying visuals can significantly hinder comprehension, especially for those who are hearing-impaired or rely on subtitles due to language barriers. For instance, when a presenter reads Euler's Formula, current Automatic Speech Recognition (ASR) models often produce a verbose and error-prone textual description (e.g., e to the power of i x equals cosine of x plus i $\textit{side}$ of x), instead of the concise $\LaTeX{}$ format (i.e., $ e^{ix} = \cos(x) + i\sin(x) $), which hampers clear understanding and communication. To address this issue, we introduce MathSpeech, a novel pipeline that integrates ASR models with small Language Models (sLMs) to correct errors in mathematical expressions and accurately convert spoken expressions into structured $\LaTeX{}$ representations. Evaluated on a new dataset derived from lecture recordings, MathSpeech demonstrates $\LaTeX{}$ generation capabilities comparable to leading commercial Large Language Models (LLMs), while leveraging fine-tuned small language models of only 120M parameters. Specifically, in terms of CER, BLEU, and ROUGE scores for $\LaTeX{}$ translation, MathSpeech demonstrated significantly superior capabilities compared to GPT-4o. We observed a decrease in CER from 0.390 to 0.298, and higher ROUGE/BLEU scores compared to GPT-4o.
- Abstract(参考訳): 数学の講義や研究のプレゼンテーションなど、様々な学術的・専門的な場面において、数学的表現を口頭で伝えることがしばしば必要である。
しかし、視覚を伴わない数学的表現の読み上げは、特に聴覚障害者や言語障壁による字幕に依存している人にとって、理解を著しく妨げる可能性がある。
例えば、プレゼンターがオイラーの式を読むとき、現在の自動音声認識(ASR)モデルは、簡潔な$\LaTeX{}$フォーマット(例えば$ e^{ix} = \cos(x) + i\sin(x) $)の代わりに、冗長でエラーを起こしやすいテキスト記述(例えば、i x のパワーに対する e は x のコサインに等しい)を生成する。
そこで本研究では,ASRモデルと小言語モデル(sLM)を統合した新しいパイプラインであるMathSpeechを紹介し,数学的表現の誤りを補正し,音声表現を構造化された$\LaTeX{}$表現に変換する。
講義記録から得られた新しいデータセットに基づいて、MathSpeechは、主要な商用大規模言語モデル(LLM)に匹敵する$\LaTeX{}$生成能力を実証し、わずか120Mパラメータの微調整された小さな言語モデルを活用する。
具体的には、CER, BLEU, ROUGEスコアを$\LaTeX{}$で翻訳すると、MathSpeechはGPT-4oに比べてはるかに優れた性能を示した。
GPT-4oに比べてCERは0.390から0.298に減少し,ROUGE/BLEUスコアは高かった。
関連論文リスト
- TeXBLEU: Automatic Metric for Evaluate LaTeX Format [4.337656290539519]
我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。
提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
論文 参考訳(メタデータ) (2024-09-10T16:54:32Z) - MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability [10.757551947236879]
数学的な文を公式に翻訳する最初の広範囲なデータセットであるMathBridgeを紹介する。
MathBridgeは、数学的な音声文から公式に変換するための事前訓練された言語モデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-07T18:07:15Z) - RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis [84.57932472551889]
RALL-Eは、音声合成のための堅牢な言語モデリング手法である。
RALL-Eは、ゼロショットTSのWERを、それぞれ5.6%$(リランクなし)から2.5%$と1.0%$に改善した。
論文 参考訳(メタデータ) (2024-04-04T05:15:07Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Neural Machine Translation for Mathematical Formulae [8.608288231153304]
我々は、あいまいな表現言語とあいまいなコンテンツ言語の間の数学的公式のニューラルネットワーク翻訳の問題に取り組む。
畳み込みシーケンス・ツー・シーケンス・ネットワークはそれぞれ95.1%と90.7%の正確な一致を達成した。
論文 参考訳(メタデータ) (2023-05-25T19:15:06Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - A Transformer-based Math Language Model for Handwritten Math Expression
Recognition [7.202733269706245]
数学の記号は、ドットやコマ、0、O、oなどの書体で非常によく似ている。
本稿ではトランスフォーマーに基づく数学言語モデル(TMLM)を提案する。
TMLMは4.42の難易度を達成し、従来の数学言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2021-08-11T03:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。