論文の概要: RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis
- arxiv url: http://arxiv.org/abs/2508.10015v1
- Date: Wed, 06 Aug 2025 13:12:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.008602
- Title: RealTalk-CN: A Realistic Chinese Speech-Text Dialogue Benchmark With Cross-Modal Interaction Analysis
- Title(参考訳): RealTalk-CN: 相互対話分析を用いた中国語音声テキスト対話ベンチマーク
- Authors: Enzhi Wang, Qicheng Li, Shiwan Zhao, Aobo Kong, Jiaming Zhou, Xi Yang, Yequan Wang, Yonghua Lin, Yong Qin,
- Abstract要約: 本稿では,中国初のマルチターン・マルチドメイン音声文二重モーダルTODデータセットであるRealTalk-CNを紹介する。
RealTalk-CNは、注釈付き自然発話不一致を伴う多様な対話シナリオをキャプチャする。
本稿では,実世界のユーザインタラクションを忠実にシミュレートする,新しいクロスモーダルチャットタスクを提案する。
- 参考スコア(独自算出の注目度): 15.473595594666751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models (LLMs) have achieved remarkable advancements in multimodal processing, including end-to-end speech-based language models that enable natural interactions and perform specific tasks in task-oriented dialogue (TOD) systems. However, existing TOD datasets are predominantly text-based, lacking real speech signals that are essential for evaluating the robustness of speech-based LLMs. Moreover, existing speech TOD datasets are primarily English and lack critical aspects such as speech disfluencies and speaker variations. To address these gaps, we introduce RealTalk-CN, the first Chinese multi-turn, multi-domain speech-text dual-modal TOD dataset, comprising 5.4k dialogues (60K utterances, 150 hours) with paired speech-text annotations. RealTalk-CN captures diverse dialogue scenarios with annotated spontaneous speech disfluencies, ensuring comprehensive coverage of real-world complexities in speech dialogue. In addition, we propose a novel cross-modal chat task that authentically simulates real-world user interactions, allowing dynamic switching between speech and text modalities. Our evaluation covers robustness to speech disfluencies, sensitivity to speaker characteristics, and cross-domain performance. Extensive experiments validate the effectiveness of RealTalk-CN, establishing a strong foundation for Chinese speech-based LLMs research.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は,タスク指向対話(TOD)システムにおいて,自然な対話を可能にし,特定のタスクを実行するエンドツーエンドの音声ベース言語モデルを含む,マルチモーダル処理において顕著な進歩を遂げている。
しかし、既存のTODデータセットは主にテキストベースであり、音声に基づくLLMの堅牢性を評価するのに不可欠な実際の音声信号が欠如している。
さらに、既存の音声TODデータセットは主に英語であり、音声の拡散や話者の変動といった重要な側面を欠いている。
これらのギャップに対処するため,中国初のマルチターン・マルチドメイン音声テキスト・デュアルモーダルTODデータセットであるRealTalk-CNを導入し,5.4k対話(60K発話,150時間)とペア音声テキストアノテーションを組み合わせた。
RealTalk-CNは、アノテートされた自然発話の拡散を伴う多様な対話シナリオをキャプチャし、音声対話における現実の複雑さを包括的にカバーする。
さらに,実世界のユーザインタラクションを忠実にシミュレートし,音声とテキストのモダリティを動的に切り替えることのできる,クロスモーダルなチャットタスクを提案する。
本評価では, 音声不一致に対する頑健性, 話者特性に対する感度, ドメイン間性能について検討した。
広範にわたる実験により、RealTalk-CNの有効性が検証され、中国語のLLM研究の強力な基盤が確立された。
関連論文リスト
- Think Before You Talk: Enhancing Meaningful Dialogue Generation in Full-Duplex Speech Language Models with Planning-Inspired Text Guidance [47.2016265294791]
FD-SLM(Full-Duplex Speech Language Models)は、人間のような対話のためのニュアンスな2話者対話パターンをキャプチャする。
会話能力は、純粋なテキスト会話に比べて劣化することが多い。
そこで我々は,人間の会話計画を模倣する新しいプランニング・インスパイアされたアプローチであるTurnGuideを提案する。
論文 参考訳(メタデータ) (2025-08-10T14:49:43Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - DialogueAgents: A Hybrid Agent-Based Speech Synthesis Framework for Multi-Party Dialogue [17.397151329196955]
本稿では,新しいハイブリッドエージェントベース音声合成フレームワークであるDialogueAgentsを提案する。
バイリンガル・マルチパーティ・マルチターン音声対話データセットであるMultiTalkにコントリビュートする。
論文 参考訳(メタデータ) (2025-04-20T04:14:30Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Towards human-like spoken dialogue generation between AI agents from
written dialogue [8.4989907582951]
本研究では,CHATS - CHATS-CHATty Agents Text-to-Speechを提案する。
本システムでは,話者側とリスナー側の両方に対して,話者側からの書き起こしのみを用いて同時に音声を生成することができる。
論文 参考訳(メタデータ) (2023-10-02T11:03:20Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。