論文の概要: RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis
- arxiv url: http://arxiv.org/abs/2508.10015v1
- Date: Wed, 06 Aug 2025 13:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.008602
- Title: RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis
- Title(参考訳): RealTalk-CN: 相互対話分析を用いた中国語音声テキスト対話ベンチマーク
- Authors: Enzhi Wang, Qicheng Li, Shiwan Zhao, Aobo Kong, Jiaming Zhou, Xi Yang, Yequan Wang, Yonghua Lin, Yong Qin,
- Abstract要約: 本稿では,中国初のマルチターン・マルチドメイン音声文二重モーダルTODデータセットであるRealTalk-CNを紹介する。
RealTalk-CNは、注釈付き自然発話不一致を伴う多様な対話シナリオをキャプチャする。
本稿では,実世界のユーザインタラクションを忠実にシミュレートする,新しいクロスモーダルチャットタスクを提案する。
- 参考スコア(独自算出の注目度): 15.473595594666751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models (LLMs) have achieved remarkable advancements in multimodal processing, including end-to-end speech-based language models that enable natural interactions and perform specific tasks in task-oriented dialogue (TOD) systems. However, existing TOD datasets are predominantly text-based, lacking real speech signals that are essential for evaluating the robustness of speech-based LLMs. Moreover, existing speech TOD datasets are primarily English and lack critical aspects such as speech disfluencies and speaker variations. To address these gaps, we introduce RealTalk-CN, the first Chinese multi-turn, multi-domain speech-text dual-modal TOD dataset, comprising 5.4k dialogues (60K utterances, 150 hours) with paired speech-text annotations. RealTalk-CN captures diverse dialogue scenarios with annotated spontaneous speech disfluencies, ensuring comprehensive coverage of real-world complexities in speech dialogue. In addition, we propose a novel cross-modal chat task that authentically simulates real-world user interactions, allowing dynamic switching between speech and text modalities. Our evaluation covers robustness to speech disfluencies, sensitivity to speaker characteristics, and cross-domain performance. Extensive experiments validate the effectiveness of RealTalk-CN, establishing a strong foundation for Chinese speech-based LLMs research.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は,タスク指向対話(TOD)システムにおいて,自然な対話を可能にし,特定のタスクを実行するエンドツーエンドの音声ベース言語モデルを含む,マルチモーダル処理において顕著な進歩を遂げている。
しかし、既存のTODデータセットは主にテキストベースであり、音声に基づくLLMの堅牢性を評価するのに不可欠な実際の音声信号が欠如している。
さらに、既存の音声TODデータセットは主に英語であり、音声の拡散や話者の変動といった重要な側面を欠いている。
これらのギャップに対処するため,中国初のマルチターン・マルチドメイン音声テキスト・デュアルモーダルTODデータセットであるRealTalk-CNを導入し,5.4k対話(60K発話,150時間)とペア音声テキストアノテーションを組み合わせた。
RealTalk-CNは、アノテートされた自然発話の拡散を伴う多様な対話シナリオをキャプチャし、音声対話における現実の複雑さを包括的にカバーする。
さらに,実世界のユーザインタラクションを忠実にシミュレートし,音声とテキストのモダリティを動的に切り替えることのできる,クロスモーダルなチャットタスクを提案する。
本評価では, 音声不一致に対する頑健性, 話者特性に対する感度, ドメイン間性能について検討した。
広範にわたる実験により、RealTalk-CNの有効性が検証され、中国語のLLM研究の強力な基盤が確立された。
関連論文リスト
- Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - DialogueAgents: A Hybrid Agent-Based Speech Synthesis Framework for Multi-Party Dialogue [17.397151329196955]
本稿では,新しいハイブリッドエージェントベース音声合成フレームワークであるDialogueAgentsを提案する。
バイリンガル・マルチパーティ・マルチターン音声対話データセットであるMultiTalkにコントリビュートする。
論文 参考訳(メタデータ) (2025-04-20T04:14:30Z) - Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。