論文の概要: Benchmarking Contextual and Paralinguistic Reasoning in Speech-LLMs: A Case Study with In-the-Wild Data
- arxiv url: http://arxiv.org/abs/2509.16589v2
- Date: Wed, 24 Sep 2025 05:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 11:55:19.827853
- Title: Benchmarking Contextual and Paralinguistic Reasoning in Speech-LLMs: A Case Study with In-the-Wild Data
- Title(参考訳): 音声-LLMにおける文脈的・パラ言語的推論のベンチマーク--in-the-Wildデータを用いたケーススタディ
- Authors: Qiongqiong Wang, Hardik Bhupendra Sailor, Tianchi Liu, Wenyu Zhang, Muhammad Huzaifah, Nattadaporn Lertcheva, Shuo Sun, Nancy F. Chen, Jinyang Wu, AiTi Aw,
- Abstract要約: 音声-LLMは、書き起こしや翻訳といったタスクにおいて顕著なパフォーマンスを示してきたが、社会的および感情的な知性に不可欠な音声のパラ言語的側面を理解することにはまだ限界がある。
文脈パラ言語推論における音声LLMの評価のためのベンチマークであるCP-Benchを提案する。
- 参考スコア(独自算出の注目度): 46.12417789276609
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent speech-LLMs have shown impressive performance in tasks like transcription and translation, yet they remain limited in understanding the paralinguistic aspects of speech crucial for social and emotional intelligence. We propose CP-Bench, a benchmark for evaluating speech-LLMs on contextual paralinguistic reasoning the integration of verbal content with non-verbal cues like emotion and prosody. The benchmark includes two curated question answering (QA) datasets requiring both linguistic and empathetic understanding. We evaluate state-of-the-art speech-LLMs from both open and closed-source models and perform a comprehensive analysis across different question types. The top two models were further analyzed under temperature tuning to understand its effect on this task. Our benchmark reveals a key gap in existing evaluations and offers insights into building more context-aware and emotionally intelligent speech-capable LLMs.
- Abstract(参考訳): 近年の音声-LLMは、書き起こしや翻訳といったタスクにおいて顕著なパフォーマンスを示してきたが、社会的・感情的な知性に不可欠な音声のパラ言語的側面を理解することにはまだ限界がある。
感情や韻律のような非言語的手がかりと言語コンテンツの統合を前提とした文脈的パラ言語的推論における音声-LLM評価のベンチマークであるCP-Benchを提案する。
このベンチマークには、言語的および共感的な理解を必要とする2つのキュレートされた質問応答(QA)データセットが含まれている。
我々は,オープンソースモデルとクローズドソースモデルの両方から最先端の音声-LLMを評価し,様々な質問タイプを包括的に分析する。
トップ2モデルは、温度調整の下でさらに解析され、この課題に対する効果が理解された。
我々のベンチマークでは、既存の評価における重要なギャップを明らかにし、よりコンテキスト対応で感情に敏感なLLMを構築するための洞察を提供する。
関連論文リスト
- Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs [59.230858581944425]
音声処理には、離散トークンと連続的な特徴の2つの主要なアプローチが出現している。
自己教師付き学習(SSL)に基づく離散的かつ連続的な特徴を、同じ実験環境下で比較する。
その結果, 連続的な特徴は, 様々なタスクにおいて, 離散トークンよりも優れていた。
論文 参考訳(メタデータ) (2025-08-25T10:16:07Z) - Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models [19.864555505996112]
本研究では,文脈パラ言語情報をモデル学習に組み込む2つの手法を提案する。
我々の暗黙的手法は、人間の注釈付きQAベンチマークでパフォーマンス(LLM-judged)を38.41%向上させ、明示的なアプローチと組み合わせると46.02%に達した。
論文 参考訳(メタデータ) (2025-08-10T10:03:30Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。
私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文 参考訳(メタデータ) (2025-07-25T15:12:06Z) - VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - What BERT Based Language Models Learn in Spoken Transcripts: An
Empirical Study [6.696983725360809]
言語モデル(LM)は、音声言語理解(SLU)を含む様々なタスクでユビキタスに活用されている。
本研究では、SLUを話者(分散、一時停止、オーバートーク)、チャンネル(会話型、ターンタスク)、ASR(挿入、削除、置換)の3つの代表的な特性に分解することを提案する。
本稿では,BERT に基づく言語モデル (BERT, RoBERTa) を探索し,言語手がかりがない場合に多言語特性を理解する能力について検討する。
論文 参考訳(メタデータ) (2021-09-19T11:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。