論文の概要: SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents
- arxiv url: http://arxiv.org/abs/2508.02013v2
- Date: Tue, 05 Aug 2025 09:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 13:15:14.135688
- Title: SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents
- Title(参考訳): SpeechRole: 音声ロールプレイングエージェントの評価のための大規模データセットとベンチマーク
- Authors: Changhao Jiang, Jiajun Sun, Yifei Cao, Jiabao Zhuang, Hui Li, Xiaoran Fan, Ming Zhang, Junjie Ye, Shihan Dou, Zhiheng Xi, Jingqi Tong, Yilong Wu, Baoyu Fan, Zhen Wang, Tao Liang, Zhihui Fei, Mingyang Wan, Guojun Ma, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
- 参考スコア(独自算出の注目度): 52.29009595100625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, role-playing agents have emerged as a promising paradigm for achieving personalized interaction and emotional resonance. Existing research primarily focuses on the textual modality, neglecting the critical dimension of speech in realistic interactive scenarios. In particular, there is a lack of systematic evaluation for Speech Role-Playing Agents (SRPAs). To address this gap, we construct SpeechRole-Data, a large-scale, high-quality dataset that comprises 98 diverse roles and 112k speech-based single-turn and multi-turn conversations. Each role demonstrates distinct vocal characteristics, including timbre and prosody, thereby enabling more sophisticated speech role-playing. Furthermore, we propose SpeechRole-Eval, a multidimensional evaluation benchmark that systematically assesses SRPAs performance in key aspects such as fundamental interaction ability, speech expressiveness, and role-playing fidelity. Experimental results reveal the advantages and challenges of both cascaded and end-to-end speech role-playing agents in maintaining vocal style consistency and role coherence. We release all data, code, and baseline models to provide a solid foundation for speech-driven multimodal role-playing research and to foster further developments in this field.
- Abstract(参考訳): 近年, パーソナライズされた相互作用と感情共鳴を実現する上で, ロールプレイングエージェントが有望なパラダイムとして出現している。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
特に、音声ロールプレイングエージェント(SRPA)の体系的評価が欠如している。
このギャップに対処するために、98の多様な役割と112kの音声に基づく1ターンと複数ターンの会話からなる大規模で高品質なデータセットであるSpeechRole-Dataを構築した。
各ロールは、音色や韻律を含む異なる声の特徴を示し、それによってより洗練された音声ロールプレイングを可能にする。
さらに,多次元評価ベンチマークであるSpeechRole-Evalを提案する。
実験結果から, 発声スタイルの整合性と役割の整合性を維持する上で, ケースドとエンド・ツー・エンドの両方のロールプレイングエージェントの利点と課題を明らかにした。
我々は、音声駆動型マルチモーダルロールプレイング研究の基盤となるため、すべてのデータ、コード、ベースラインモデルをリリースし、この分野のさらなる発展を後押しする。
関連論文リスト
- Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。
対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文 参考訳(メタデータ) (2026-02-10T14:31:11Z) - PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models [33.33273575953341]
本稿では,ハイブリッドシステムプロンプトを組み込んだ二重会話音声モデルであるPersonaPlexを紹介する。
PersonaPlexは、ペア化されたプロンプトとユーザエージェントによる会話の大規模な合成データセットに基づいてトレーニングされている。
実験の結果,ペルソナプレックスは強い役割条件付き行動,音声条件付き音声,自然な会話応答性を実現していることがわかった。
論文 参考訳(メタデータ) (2026-01-14T07:47:46Z) - Speech-DRAME: A Framework for Human-Aligned Benchmarks in Speech Role-Play [68.54773980519457]
Speech-DRAMEは3つのレベルで貢献する統合フレームワークである。
音声ロールプレイを評価するための、最初の包括的で再現可能な基盤を提供する。
論文 参考訳(メタデータ) (2025-11-03T06:12:40Z) - VoxRole: A Comprehensive Benchmark for Evaluating Speech-Based Role-Playing Agents [25.2769510663867]
我々は、音声ベースのRPCAsの評価に特化して設計された最初の総合ベンチマークであるVoxRoleを紹介する。
ベンチマークは13335のマルチターンダイアログで構成され、261本の映画に1228のユニークなキャラクターから65.6時間のスピーチがある。
論文 参考訳(メタデータ) (2025-09-04T07:03:46Z) - C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations [23.11314388159895]
音声対話モデル(SDM)は近年,ユーザの音声クエリに直接音声応答を生成する能力に注目が集まっている。
人間の音声相互作用は、音声対話特有の特徴のため、本質的にテキストよりも複雑である。
論文 参考訳(メタデータ) (2025-07-30T17:56:23Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文 参考訳(メタデータ) (2025-05-26T17:55:06Z) - Multimodal Conversation Structure Understanding [12.29827265137757]
大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T06:41:54Z) - VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models [26.34810950257782]
音声通信における音声対話モデルの能力を評価するためのベンチマークであるVocalBenchを提案する。
VocalBenchは、セマンティック品質、アコースティックパフォーマンス、会話能力、ロバストネスの4つの重要なディメンションにわたって、9,400の慎重にキュレーションされたインスタンスで構成されている。
実験結果から、現在のモデル能力に有意な変動が見られ、それぞれ異なる強度と弱点が示される。
論文 参考訳(メタデータ) (2025-05-21T16:34:07Z) - Speaker Verification in Agent-Generated Conversations [47.6291644653831]
近年の大型言語モデル (LLM) の成功は、様々な話者の特徴やスタイルに合わせたロールプレイング・会話エージェントを開発し、汎用的・特殊な対話タスクを遂行する能力を高めるために広く関心を集めている。
本研究では,2つの発話が同一話者から発せられるかどうかを検証することを目的とした,エージェント生成会話における話者検証という,新たな評価課題を紹介する。
論文 参考訳(メタデータ) (2024-05-16T14:46:18Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。