論文の概要: MULTI-Bench: A Multi-Turn Interactive Benchmark for Assessing Emotional Intelligence ability of Spoken Dialogue Models
- arxiv url: http://arxiv.org/abs/2511.00850v1
- Date: Sun, 02 Nov 2025 08:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.964556
- Title: MULTI-Bench: A Multi-Turn Interactive Benchmark for Assessing Emotional Intelligence ability of Spoken Dialogue Models
- Title(参考訳): Multi-Bench:音声対話モデルの感情知能評価のためのマルチターン対話型ベンチマーク
- Authors: Yayue Deng, Guoqiang Hu, Haiyang Sun, Xiangyu Zhang, Haoyang Zhang, Fei Tian, Xuerui Yang, Gang Yu, Eng Siong Chng,
- Abstract要約: 音声対話モデル(SDM)は急速に進歩しているが、真の対話型マルチターン会話を維持できる能力はいまだに未調査である。
マルチターン対話におけるSDMを評価するために設計された最初のベンチマークであるMulti-Benchを紹介する。
- 参考スコア(独自算出の注目度): 47.12029218296983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken Dialogue Models (SDMs) have advanced rapidly, yet their ability to sustain genuinely interactive multi-turn conversations remains underexplored, as most benchmarks focus on single-turn exchanges. We introduce Multi-Bench, the first benchmark explicitly designed to evaluate SDMs in multi-turn interactive dialogue with an emphasis on emotional intelligence. Multi-Bench employs a hierarchical structure with a basic track for emotion understanding and reasoning and an advanced track for emotion support and application. It comprises five carefully designed tasks and about 3.2K samples, ranging from emotion recognition to complex reasoning and interactive dialogue, supported by a reproducible evaluation framework. We evaluate six representative SDMs on eight subsets of Multi-Bench. Results show that while current SDMs achieve good performance on basic understanding tasks, they still have room for improvement in advanced multi-turn interactive dialogue and reasoning-related tasks, particularly in emotion awareness and application.
- Abstract(参考訳): 音声対話モデル(SDM)は急速に進歩しているが、ほとんどのベンチマークではシングルターン交換に重点を置いているため、真の対話的なマルチターン会話を持続する能力はまだ探索されていない。
マルチベンチ(Multi-Bench)は、感情的なインテリジェンスを重視したマルチターン対話において、SDMを評価するために設計された最初のベンチマークである。
Multi-Benchは、感情理解と推論のための基本的なトラックと、感情支援と応用のための高度なトラックを備えた階層構造を採用している。
5つの慎重に設計されたタスクと約3.2Kサンプルで構成されており、感情認識から複雑な推論や対話的な対話まで、再現可能な評価フレームワークがサポートしている。
我々は,Multi-Benchの8つのサブセット上で6つの代表SDMを評価する。
その結果、現在のSDMは、基本的な理解タスクにおいて優れた性能を発揮する一方で、高度なマルチターン対話や推論関連タスク、特に感情認識や応用において改善の余地があることが示されている。
関連論文リスト
- Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - An LLM Benchmark for Addressee Recognition in Multi-modal Multi-party Dialogue [21.938414385824903]
本論文は,次の順番に宛てられている相手を識別する,宛先認識の課題に焦点を当てる。
コーパスのサブセットにアドレナリ情報が付加され、明示的なアドレナリが会話のターンの約20%で表示されることが明らかになった。
論文 参考訳(メタデータ) (2025-01-28T02:27:55Z) - DEMO: Reframing Dialogue Interaction with Fine-grained Element Modeling [73.08187964426823]
大規模言語モデル (LLM) によって実現された対話システムは、人間と機械の相互作用において中心的なモードの1つとなっている。
本稿では,新しい研究課題--$textbfD$ialogue $textbfE$lement $textbfMO$delingを紹介する。
本稿では,包括的対話モデリングと評価のために設計された新しいベンチマークである$textbfDEMO$を提案する。
論文 参考訳(メタデータ) (2024-12-06T10:01:38Z) - Empathy Through Multimodality in Conversational Interfaces [1.360649555639909]
会話型健康エージェント(CHA)は、感情的なインテリジェンスを組み込むためにテキスト分析を超越するニュアンスなサポートを提供することで、医療を再定義している。
本稿では、豊かなマルチモーダル対話のためのLCMベースのCHAについて紹介する。
マルチモーダルな手がかりを解析することにより、ユーザの感情状態に順応的に解釈し、応答し、文脈的に認識され、共感的に反響する音声応答を提供する。
論文 参考訳(メタデータ) (2024-05-08T02:48:29Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - DialogueBERT: A Self-Supervised Learning based Dialogue Pre-training
Encoder [19.51263716065853]
本稿では,人気のある事前学習型言語モデルBERTに基づく新しい文脈対話エンコーダ(ダイアログBERT)を提案する。
5つの自己教師型学習事前学習課題が,対話音声の特異性を学習するために考案された。
DialogueBERTは、実シナリオで7000万の対話で事前訓練され、3つの異なる下流対話理解タスクで微調整された。
論文 参考訳(メタデータ) (2021-09-22T01:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。