論文の概要: SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2508.02018v1
- Date: Mon, 04 Aug 2025 03:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.157165
- Title: SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models
- Title(参考訳): SpeechR:大規模音声言語モデルにおける音声推論のベンチマーク
- Authors: Wanqi Yang, Yanda Li, Yunchao Wei, Meng Fang, Ling Chen,
- Abstract要約: SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
- 参考スコア(独自算出の注目度): 60.72029578488467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large audio-language models (LALMs) have achieved near-human performance in sentence-level transcription and emotion recognition. However, existing evaluations focus mainly on surface-level perception, leaving the capacity of models for contextual and inference-driven reasoning in speech-based scenarios insufficiently examined. To address this gap, we introduce SpeechR, a unified benchmark for evaluating reasoning over speech in large audio-language models. SpeechR evaluates models along three key dimensions: factual retrieval, procedural inference, and normative judgment. It includes three distinct evaluation formats. The multiple-choice version measures answer selection accuracy. The generative version assesses the coherence and logical consistency of reasoning chains. The acoustic-feature version investigates whether variations in stress and emotion affect reasoning performance. Evaluations on eleven state-of-the-art LALMs reveal that high transcription accuracy does not translate into strong reasoning capabilities. SpeechR establishes a structured benchmark for evaluating reasoning in spoken language, enabling more targeted analysis of model capabilities across diverse dialogue-based tasks.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は、文レベルの転写と感情認識において、ほぼ人間に近い性能を達成している。
しかし、既存の評価は、主に表面レベルの知覚に焦点を当てており、音声ベースのシナリオにおいて、文脈的および推論駆動推論のためのモデルの能力は十分に検証されていない。
このギャップに対処するために,大規模音声モデルにおける音声に対する推論評価のための統一ベンチマークであるSpeechRを導入する。
SpeechRは、事実検索、手続き推論、規範的判断の3つの重要な側面に沿ってモデルを評価する。
評価形式は3種類ある。
複数選択バージョンは、回答の選択精度を測定する。
生成版は推論鎖の一貫性と論理的整合性を評価する。
音響機能バージョンは、ストレスと感情の変化が推論性能に影響を及ぼすかどうかを調査する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
SpeechRは、音声言語における推論を評価するための構造化されたベンチマークを確立し、多様な対話ベースのタスクを対象とするモデル能力の分析を可能にする。
関連論文リスト
- SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。
私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文 参考訳(メタデータ) (2025-07-25T15:12:06Z) - WildSpeech-Bench: Benchmarking Audio LLMs in Natural Speech Conversation [44.17470719671929]
本稿では,実用的な音声対話における音声大言語モデル(LLM)を徹底的に評価するための新しい手法を提案する。
音声シナリオに関連する実世界のチャットデータを体系的にキュレートし、話者属性や音響条件の多様性を導入し、音声固有の現象でデータセットを増強する。
様々な主流音声モデルの包括的テストと詳細な分析を行い、異なる音声シナリオにおけるモデル性能の顕著な差異を明らかにした。
論文 参考訳(メタデータ) (2025-06-27T03:18:45Z) - Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - Classification of Spontaneous and Scripted Speech for Multilingual Audio [9.925703861731506]
発話スタイルが音声処理研究にどのように影響するかをよりよく理解するためには,自発音声からスクリプトを識別することが不可欠である。
本稿では,様々な形式や言語にまたがってよく一般化された分類器を構築することの課題に対処する。
従来型,手作り音響,韻律的特徴から高度なオーディオトランスフォーマーまで,様々なモデルを体系的に評価する。
論文 参考訳(メタデータ) (2024-12-16T15:45:10Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models [25.683827726880594]
EmphAssessは,音声合成モデルの韻律強調を符号化し再現する能力を評価するためのベンチマークである。
音声合成と音声合成の2つの課題に適用する。
どちらの場合も、ベンチマークは、モデルが音声入力の強調を符号化し、出力で正確に再現する能力を評価する。
評価パイプラインの一部として、フレームや単語レベルで強調を分類する新しいモデルであるEmphaClassを紹介する。
論文 参考訳(メタデータ) (2023-12-21T17:47:33Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。