論文の概要: EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models
- arxiv url: http://arxiv.org/abs/2510.22758v1
- Date: Sun, 26 Oct 2025 17:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.356302
- Title: EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models
- Title(参考訳): EchoMind:共感型言語モデル評価のための相互関連多レベルベンチマーク
- Authors: Li Zhou, Lutong Yu, You Lyu, Yihang Lin, Zefeng Zhao, Junyi Ao, Yuhao Zhang, Benyou Wang, Haizhou Li,
- Abstract要約: 音声言語モデル(SLM)は、音声言語理解において大きな進歩を遂げている。
SLMが非語彙的声道を完全に知覚できるかどうかは不明であるが、感情的・文脈的要因の双方に合致する共感に反応する。
共感的対話の認知過程をシミュレートする最初の相互関連型マルチレベルベンチマークであるEchoMindを提案する。
- 参考スコア(独自算出の注目度): 47.41816926003011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Language Models (SLMs) have made significant progress in spoken language understanding. Yet it remains unclear whether they can fully perceive non lexical vocal cues alongside spoken words, and respond with empathy that aligns with both emotional and contextual factors. Existing benchmarks typically evaluate linguistic, acoustic, reasoning, or dialogue abilities in isolation, overlooking the integration of these skills that is crucial for human-like, emotionally intelligent conversation. We present EchoMind, the first interrelated, multi-level benchmark that simulates the cognitive process of empathetic dialogue through sequential, context-linked tasks: spoken-content understanding, vocal-cue perception, integrated reasoning, and response generation. All tasks share identical and semantically neutral scripts that are free of explicit emotional or contextual cues, and controlled variations in vocal style are used to test the effect of delivery independent of the transcript. EchoMind is grounded in an empathy-oriented framework spanning 3 coarse and 12 fine-grained dimensions, encompassing 39 vocal attributes, and evaluated using both objective and subjective metrics. Testing 12 advanced SLMs reveals that even state-of-the-art models struggle with high-expressive vocal cues, limiting empathetic response quality. Analyses of prompt strength, speech source, and ideal vocal cue recognition reveal persistent weaknesses in instruction-following, resilience to natural speech variability, and effective use of vocal cues for empathy. These results underscore the need for SLMs that integrate linguistic content with diverse vocal cues to achieve truly empathetic conversational ability.
- Abstract(参考訳): 音声言語モデル(SLM)は、音声言語理解において大きな進歩を遂げている。
しかし, 感情的・文脈的要因の両面に一致した共感を伴って, 非語彙的声道を完全に知覚できるかどうかについては, いまだ不明である。
既存のベンチマークは、言語的、音響的、推論的、または対話的な能力を独立して評価し、人間のような感情的な会話に不可欠なこれらのスキルの統合を見越す。
音声コンテンツ理解,声質知覚,統合推論,応答生成といった,逐次的,コンテキストリンクされたタスクを通じて共感的対話の認知過程をシミュレートする,最初の相互関連マルチレベルベンチマークであるEchoMindを提案する。
全てのタスクは、明示的な感情的あるいは文脈的な手がかりのない同一かつ意味的に中立なスクリプトを共有し、声楽スタイルの制御されたバリエーションは、書き起こしから独立した配信の効果をテストするために使用される。
EchoMindは、3つの粗い次元と12のきめ細かい次元にまたがる共感指向のフレームワークに基盤を置いており、39の発声特性を含み、客観的および主観的メトリクスの両方を用いて評価されている。
12種類の高度なSLMをテストすると、最先端のモデルでさえ高い表現力を持つ声質に悩まされ、共感的な応答品質が制限されることが明らかになった。
即時強度、音声源、理想的な音声キュー認識の分析は、指示追従、自然な発声に対する弾力性、共感のための音声キューの効果的な使用において、永続的な弱点を明らかにする。
これらの結果は,言語内容と多様な声道的手がかりを統合して,真に共感的な会話能力を実現するSLMの必要性を浮き彫りにした。
関連論文リスト
- Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Marco-Voice Technical Report [35.01600797874603]
この研究の目的は、高度に表現力があり、制御可能で、自然な音声生成を実現するための長年にわたる課題に対処することである。
提案手法では, 効果的な話者・感情の絡み合い機構を導入し, コントラスト学習を行う。
包括的学習と評価を支援するため,高品質な感情音声データセットCSEMOTIONSを構築した。
論文 参考訳(メタデータ) (2025-08-04T04:08:22Z) - SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models [76.07833875692722]
音声に基づくインテリジェンス・クオシエント(SIQ)は、人間の認知にインスパイアされた評価パイプラインの新たな形態であり、大きな言語モデルを理解するためのものである。
私たちのフレームワークは、認知原則を音声指向のベンチマークでブリッジする、第一種知能検査を表現しています。
論文 参考訳(メタデータ) (2025-07-25T15:12:06Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models [31.584937435966253]
音声対話能力を評価するためにVocalBenchを提案する。
4つのキーディメンションにわたる9,400の慎重にキュレートされたインスタンスで構成されている。
効果的な音声対話に不可欠な、幅広い基本的なスキルをカバーしている。
論文 参考訳(メタデータ) (2025-05-21T16:34:07Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。