論文の概要: Towards Spoken Mathematical Reasoning: Benchmarking Speech-based Models over Multi-faceted Math Problems
- arxiv url: http://arxiv.org/abs/2505.15000v1
- Date: Wed, 21 May 2025 01:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.803797
- Title: Towards Spoken Mathematical Reasoning: Benchmarking Speech-based Models over Multi-faceted Math Problems
- Title(参考訳): 数理推論に向けて:多面問題に対する音声ベースモデルのベンチマーク
- Authors: Chengwei Wei, Bin Wang, Jung-jae Kim, Nancy F. Chen,
- Abstract要約: 本稿では,音声ベースモデルの数学的推論能力を評価するための新しいベンチマークである,Spoken-MQA(Spken Math Question Answering)を紹介する。
Spoken-MQAは、純粋算術、単段階および多段階の文脈推論、知識指向推論問題など、多種多様な数学問題をカバーしている。
基本算術を含む文脈的推論タスクにおいて、LLMが競合的に機能する言語もあるが、直接算術問題に苦戦している。
- 参考スコア(独自算出の注目度): 36.45822358679126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) and multimodal LLMs (MLLMs) have led to strong reasoning ability across a wide range of tasks. However, their ability to perform mathematical reasoning from spoken input remains underexplored. Prior studies on speech modality have mostly focused on factual speech understanding or simple audio reasoning tasks, providing limited insight into logical step-by-step reasoning, such as that required for mathematical problem solving. To address this gap, we introduce Spoken Math Question Answering (Spoken-MQA), a new benchmark designed to evaluate the mathematical reasoning capabilities of speech-based models, including both cascade models (ASR + LLMs) and end-to-end speech LLMs. Spoken-MQA covers a diverse set of math problems, including pure arithmetic, single-step and multi-step contextual reasoning, and knowledge-oriented reasoning problems, all presented in unambiguous natural spoken language. Through extensive experiments, we find that: (1) while some speech LLMs perform competitively on contextual reasoning tasks involving basic arithmetic, they still struggle with direct arithmetic problems; (2) current LLMs exhibit a strong bias toward symbolic mathematical expressions written in LaTex and have difficulty interpreting verbalized mathematical expressions; and (3) mathematical knowledge reasoning abilities are significantly degraded in current speech LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)やマルチモーダルLLM(MLLM)の最近の進歩は、幅広いタスクにおいて強力な推論能力をもたらしている。
しかし、音声入力から数学的推論を行う能力はいまだ解明されていない。
音声モダリティに関する以前の研究は、主に実話理解や単純な音声推論のタスクに焦点を当てており、数学的問題解決に必要な論理的なステップバイステップの推論について限定的な洞察を与えてきた。
このギャップに対処するために,音声モデル(ASR + LLM)とエンドツーエンド音声LLMの両方を含む音声モデルにおける数学的推論能力を評価するために設計された新しいベンチマークである,Spoken-MQA(Spken Math Question Answering)を導入する。
Spoken-MQAは、純粋算術、単段階および多段階の文脈推論、知識指向推論問題など、様々な数学問題をカバーしている。
その結果,(1)基本的な算術を含む文脈的推論タスクにおいて,LLMは競合的に機能するが,依然として直接算術的な問題に悩まされている,(2)現在のLLMは,LaTexで書かれた記号的数学的表現に対して強いバイアスを示し,動詞化された数学的表現の解釈が困難である,(3)現在のLLMでは,数学的知識推論能力が著しく低下している,という結果が得られた。
関連論文リスト
- Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics [2.489157527463306]
大規模言語モデル(LLM)は、数学的推論タスクにおいて顕著な進歩を示している。
大規模言語モデル(LLM)の最近の進歩は、数学的推論タスクの顕著な進歩を示している。
論文 参考訳(メタデータ) (2025-04-01T00:10:10Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models [44.63505885248145]
FineMathは、中国語大言語モデル(LLM)を評価するための詳細な数学的評価ベンチマークデータセットである。
FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、数学用語の問題の17のカテゴリに分けられる。
数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
論文 参考訳(メタデータ) (2024-03-12T15:32:39Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。