Fugu-MT 論文翻訳(概要): RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis

論文の概要: RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis

arxiv url: http://arxiv.org/abs/2508.10015v1
Date: Wed, 06 Aug 2025 13:12:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-15 22:24:48.008602
Title: RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis
Title（参考訳）: RealTalk-CN: 相互対話分析を用いた中国語音声テキスト対話ベンチマーク
Authors: Enzhi Wang, Qicheng Li, Shiwan Zhao, Aobo Kong, Jiaming Zhou, Xi Yang, Yequan Wang, Yonghua Lin, Yong Qin,
Abstract要約: 本稿では,中国初のマルチターン・マルチドメイン音声文二重モーダルTODデータセットであるRealTalk-CNを紹介する。 RealTalk-CNは、注釈付き自然発話不一致を伴う多様な対話シナリオをキャプチャする。本稿では,実世界のユーザインタラクションを忠実にシミュレートする,新しいクロスモーダルチャットタスクを提案する。
参考スコア（独自算出の注目度）: 15.473595594666751
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, large language models (LLMs) have achieved remarkable advancements in multimodal processing, including end-to-end speech-based language models that enable natural interactions and perform specific tasks in task-oriented dialogue (TOD) systems. However, existing TOD datasets are predominantly text-based, lacking real speech signals that are essential for evaluating the robustness of speech-based LLMs. Moreover, existing speech TOD datasets are primarily English and lack critical aspects such as speech disfluencies and speaker variations. To address these gaps, we introduce RealTalk-CN, the first Chinese multi-turn, multi-domain speech-text dual-modal TOD dataset, comprising 5.4k dialogues (60K utterances, 150 hours) with paired speech-text annotations. RealTalk-CN captures diverse dialogue scenarios with annotated spontaneous speech disfluencies, ensuring comprehensive coverage of real-world complexities in speech dialogue. In addition, we propose a novel cross-modal chat task that authentically simulates real-world user interactions, allowing dynamic switching between speech and text modalities. Our evaluation covers robustness to speech disfluencies, sensitivity to speaker characteristics, and cross-domain performance. Extensive experiments validate the effectiveness of RealTalk-CN, establishing a strong foundation for Chinese speech-based LLMs research.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) は,タスク指向対話(TOD)システムにおいて,自然な対話を可能にし,特定のタスクを実行するエンドツーエンドの音声ベース言語モデルを含む,マルチモーダル処理において顕著な進歩を遂げている。しかし、既存のTODデータセットは主にテキストベースであり、音声に基づくLLMの堅牢性を評価するのに不可欠な実際の音声信号が欠如している。さらに、既存の音声TODデータセットは主に英語であり、音声の拡散や話者の変動といった重要な側面を欠いている。これらのギャップに対処するため,中国初のマルチターン・マルチドメイン音声テキスト・デュアルモーダルTODデータセットであるRealTalk-CNを導入し,5.4k対話(60K発話,150時間)とペア音声テキストアノテーションを組み合わせた。 RealTalk-CNは、アノテートされた自然発話の拡散を伴う多様な対話シナリオをキャプチャし、音声対話における現実の複雑さを包括的にカバーする。さらに,実世界のユーザインタラクションを忠実にシミュレートし,音声とテキストのモダリティを動的に切り替えることのできる,クロスモーダルなチャットタスクを提案する。本評価では, 音声不一致に対する頑健性, 話者特性に対する感度, ドメイン間性能について検討した。広範にわたる実験により、RealTalk-CNの有効性が検証され、中国語のLLM研究の強力な基盤が確立された。

論文の概要: RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis

関連論文リスト