論文の概要: MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models
- arxiv url: http://arxiv.org/abs/2511.10262v1
- Date: Fri, 14 Nov 2025 01:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.779804
- Title: MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models
- Title(参考訳): MTR-DuplexBench:全二重言語モデルのための多言語会話の包括的評価に向けて
- Authors: He Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Shaohua Ma, Irwin King,
- Abstract要約: MTR-DuplexBenchはマルチラウンド環境でFDSLMを評価するための新しいベンチマークである。
MTR-DuplexBenchは,対話品質,対話力学,フォローインストラクション,安全性など,FDSLMの総合的・ターンバイターン評価を提供する。
- 参考スコア(独自算出の注目度): 48.34642579013783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions and conversational features, neglecting the complexities of multi-round communication and critical capabilities such as instruction following and safety. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark that segments continuous full-duplex dialogues into discrete turns, enabling comprehensive, turn-by-turn evaluation of FD-SLMs across dialogue quality, conversational dynamics, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our proposed benchmark. The benchmark and code will be available in the future.
- Abstract(参考訳): FD-SLM(Full-Duplex Speech Language Models)は、従来の半二重言語モデルよりもダイナミックなユーザエクスペリエンスを提供する。
しかし、既存のベンチマークは主にシングルラウンドインタラクションと会話機能の評価に重点を置いており、マルチラウンド通信の複雑さや、命令追従や安全性といった重要な機能を無視している。
マルチラウンド環境でのFD-SLMの評価は、通信における曖昧なターン境界やモデル推論時のコンテキストの不整合など、大きな課題を生んでいる。
これらのギャップに対処するため、MTR-DuplexBenchという、連続的な全二重対話を個別に分割し、対話品質、対話力学、命令追従、安全性などにわたるFD-SLMの包括的・ターン・バイ・ターン評価を可能にする新しいベンチマークを導入する。
実験結果から,現在のFD-SLMは複数のラウンドおよび評価次元で一貫した性能を維持するのに困難に直面しており,提案するベンチマークの必要性と有効性を強調している。
ベンチマークとコードは将来的に利用可能になる予定だ。
関連論文リスト
- FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - From Turn-Taking to Synchronous Dialogue: A Survey of Full-Duplex Spoken Language Models [12.741006204459637]
フルデュープレックス音声通信は、自然なターンテイク、重複する音声、中断と同時聴取と会話を可能にする。
本調査はFD-SLM(Full-Duplex Spoken Language Models)を包括的にレビューする。
同期データの不足、アーキテクチャのばらつき、評価ギャップなど、基本的な課題を特定します。
論文 参考訳(メタデータ) (2025-09-18T01:00:58Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。