論文の概要: C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations
- arxiv url: http://arxiv.org/abs/2507.22968v1
- Date: Wed, 30 Jul 2025 17:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.41918
- Title: C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations
- Title(参考訳): C3: 複雑な会話における課題を探る対話モデルのためのバイリンガルベンチマーク
- Authors: Chengqian Ma, Wei Tao, Yiwen Guo,
- Abstract要約: 音声対話モデル(SDM)は近年,ユーザの音声クエリに直接音声応答を生成する能力に注目が集まっている。
人間の音声相互作用は、音声対話特有の特徴のため、本質的にテキストよりも複雑である。
- 参考スコア(独自算出の注目度): 23.11314388159895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken Dialogue Models (SDMs) have recently attracted significant attention for their ability to generate voice responses directly to users' spoken queries. Despite their increasing popularity, there exists a gap in research focused on comprehensively understanding their practical effectiveness in comprehending and emulating human conversations. This is especially true compared to text-based Large Language Models (LLMs), which benefit from extensive benchmarking. Human voice interactions are inherently more complex than text due to characteristics unique to spoken dialogue. Ambiguity poses one challenge, stemming from semantic factors like polysemy, as well as phonological aspects such as heterograph, heteronyms, and stress patterns. Additionally, context-dependency, like omission, coreference, and multi-turn interaction, adds further complexity to human conversational dynamics. To illuminate the current state of SDM development and to address these challenges, we present a benchmark dataset in this paper, which comprises 1,079 instances in English and Chinese. Accompanied by an LLM-based evaluation method that closely aligns with human judgment, this dataset facilitates a comprehensive exploration of the performance of SDMs in tackling these practical challenges.
- Abstract(参考訳): 音声対話モデル(SDM)は近年,ユーザの音声クエリに直接音声応答を生成する能力に注目が集まっている。
人気が高まっているにもかかわらず、人間の会話の理解とエミュレートにおける実践的効果を包括的に理解することに焦点を当てた研究のギャップが存在する。
これは、大規模なベンチマークの恩恵を受けるテキストベースのLarge Language Models (LLMs)と比較すると、特に当てはまります。
人間の音声相互作用は、音声対話特有の特徴のため、本質的にテキストよりも複雑である。
曖昧さは、ポリセミーのような意味的要因やヘテログラフ、ヘテロネーム、ストレスパターンといった音韻学的側面に起因している。
さらに、省略、コア推論、マルチターンインタラクションといったコンテキスト依存は、人間の会話のダイナミクスをさらに複雑にします。
本稿では,SDM開発の現状を照らし,これらの課題に対処するために,英語と中国語の1,079のインスタンスからなるベンチマークデータセットを提案する。
人間の判断と密接に一致したLCMに基づく評価手法により,本データセットは,これらの課題に対処する上でのSDMの性能の包括的探索を容易にする。
関連論文リスト
- Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Multimodal Conversation Structure Understanding [12.29827265137757]
大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T06:41:54Z) - Contrastive Speaker-Aware Learning for Multi-party Dialogue Generation with LLMs [4.691083532629246]
マルチパーティ対話生成は、複数の話者の複雑な相互作用と会話スレッド間の相互作用によって大きな課題を呈する。
本稿では,事前学習されたLarge Language Models (LLM) を利用した新しい生成モデルである Speaker-Attentive LLM (SA-LLM) と,これらの課題に対処するための話者認識型コントラスト学習戦略を提案する。
SA-LLMは、明示的な関係アノテーションなしで文脈的コヒーレンスと話者の役割を暗黙的に学習する、話者対応の入力符号化と対照的な学習目的を取り入れている。
論文 参考訳(メタデータ) (2025-03-11T19:28:12Z) - REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すかどうかを調べる。
従来の設定では、各参加者は一度に1つのメッセージに制限される。
本稿では,textitburstダイアログパターンを用いて,元のテストを強化するtextbftextscX-Turingを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。