論文の概要: MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2506.04779v1
- Date: Thu, 05 Jun 2025 09:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.618665
- Title: MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark
- Title(参考訳): MMSU: ベンチマークの理解と推論を多タスクで行う言語
- Authors: Dingdong Wang, Jincenzi Wu, Junan Li, Dongchao Yang, Xueyuan Chen, Tianhua Zhang, Helen Meng,
- Abstract要約: MMSUは、47の異なるタスクにまたがって、5000の厳密にキュレートされたオーディオクエスト・アンサートレットで構成されている。
我々は、音声学、韻律、修辞学、構文学、意味論、パラ言語学を含む言語理論のベンチマークを定めている。
MMSUは、音声言語理解の包括的評価のための新しい標準を確立する。
- 参考スコア(独自算出の注目度): 42.58439306999647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech inherently contains rich acoustic information that extends far beyond the textual language. In real-world spoken language understanding, effective interpretation often requires integrating semantic meaning (e.g., content), paralinguistic features (e.g., emotions, speed, pitch) and phonological characteristics (e.g., prosody, intonation, rhythm), which are embedded in speech. While recent multimodal Speech Large Language Models (SpeechLLMs) have demonstrated remarkable capabilities in processing audio information, their ability to perform fine-grained perception and complex reasoning in natural speech remains largely unexplored. To address this gap, we introduce MMSU, a comprehensive benchmark designed specifically for understanding and reasoning in spoken language. MMSU comprises 5,000 meticulously curated audio-question-answer triplets across 47 distinct tasks. To ground our benchmark in linguistic theory, we systematically incorporate a wide range of linguistic phenomena, including phonetics, prosody, rhetoric, syntactics, semantics, and paralinguistics. Through a rigorous evaluation of 14 advanced SpeechLLMs, we identify substantial room for improvement in existing models, highlighting meaningful directions for future optimization. MMSU establishes a new standard for comprehensive assessment of spoken language understanding, providing valuable insights for developing more sophisticated human-AI speech interaction systems. MMSU benchmark is available at https://huggingface.co/datasets/ddwang2000/MMSU. Evaluation Code is available at https://github.com/dingdongwang/MMSU_Bench.
- Abstract(参考訳): 音声は本質的に、テキスト言語をはるかに超える豊富な音響情報を含んでいる。
実世界の音声言語理解において、効果的な解釈には、意味意味(例えば、内容)、パラ言語的特徴(例えば、感情、速度、ピッチ)、音韻学的特徴(例えば、韻律、イントネーション、リズム)を統合する必要がある。
最近のマルチモーダル音声大言語モデル(SpeechLLMs)は、音声情報処理において顕著な能力を示したが、自然な音声における微粒化認識と複雑な推論を行う能力は、まだ明らかにされていない。
このギャップに対処するために、音声言語における理解と推論に特化した包括的なベンチマークであるMMSUを紹介する。
MMSUは、47の異なるタスクにまたがって、5000の厳密にキュレートされたオーディオクエスト・アンサートレットで構成されている。
言語理論のベンチマークを基礎として、音声学、韻律、修辞学、構文学、意味論、パラ言語学など幅広い言語現象を体系的に取り入れた。
14の高度音声LLMの厳密な評価により、既存のモデルの改善の余地を明確化し、将来の最適化に向けた意味のある方向性を明らかにする。
MMSUは、音声言語理解の包括的評価のための新しい標準を確立し、より洗練された人間-AI音声対話システムの開発に有用な洞察を提供する。
MMSUベンチマークはhttps://huggingface.co/datasets/ddwang2000/MMSUで公開されている。
Evaluation Codeはhttps://github.com/dingdongwang/MMSU_Bench.comで入手できる。
関連論文リスト
- VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models [26.34810950257782]
音声通信における音声対話モデルの能力を評価するためのベンチマークであるVocalBenchを提案する。
VocalBenchは、セマンティック品質、アコースティックパフォーマンス、会話能力、ロバストネスの4つの重要なディメンションにわたって、9,400の慎重にキュレーションされたインスタンスで構成されている。
実験結果から、現在のモデル能力に有意な変動が見られ、それぞれ異なる強度と弱点が示される。
論文 参考訳(メタデータ) (2025-05-21T16:34:07Z) - Language-agnostic, automated assessment of listeners' speech recall using large language models [0.0]
本研究は、英語母語話者と10言語母語話者の現代大言語モデル(LLM)を活用する。
参加者は母国語の短い話(静かで明快で、バブルノイズで)を聴き、自由に呼び戻した。
LLMは、意味的類似性分析によるエンジニアリングを促進させ、音声のリコールを評価することで、時間順、プライマリシー/レシーシ、バックグラウンドノイズの既知の影響に対する感受性を明らかにした。
論文 参考訳(メタデータ) (2025-03-02T22:28:41Z) - Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models [38.64792118903994]
SILLMのジェンダーバイアスを4つの意味的タスクで評価した。
分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-09T15:35:43Z) - An Empirical Study of Speech Language Models for Prompt-Conditioned Speech Synthesis [45.558316325252335]
音声言語モデル(LM)は、文脈内学習を通じて高品質な音声合成を実現することを約束している。
合成音声がどのようにプロンプトとコンテンツによって制御されるかを検討する。
論文 参考訳(メタデータ) (2024-03-19T03:22:28Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。