論文の概要: PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models
- arxiv url: http://arxiv.org/abs/2602.06053v1
- Date: Wed, 14 Jan 2026 07:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.665133
- Title: PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models
- Title(参考訳): ペルソナプレックス:全二重会話音声モデルにおける音声と役割制御
- Authors: Rajarshi Roy, Jonathan Raiman, Sang-gil Lee, Teodor-Dumitru Ene, Robert Kirby, Sungwon Kim, Jaehyeon Kim, Bryan Catanzaro,
- Abstract要約: 本稿では,ハイブリッドシステムプロンプトを組み込んだ二重会話音声モデルであるPersonaPlexを紹介する。
PersonaPlexは、ペア化されたプロンプトとユーザエージェントによる会話の大規模な合成データセットに基づいてトレーニングされている。
実験の結果,ペルソナプレックスは強い役割条件付き行動,音声条件付き音声,自然な会話応答性を実現していることがわかった。
- 参考スコア(独自算出の注目度): 33.33273575953341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in duplex speech models have enabled natural, low-latency speech-to-speech interactions. However, existing models are restricted to a fixed role and voice, limiting their ability to support structured, role-driven real-world applications and personalized interactions. In this work, we introduce PersonaPlex, a duplex conversational speech model that incorporates hybrid system prompts, combining role conditioning with text prompts and voice cloning with speech samples. PersonaPlex is trained on a large-scale synthetic dataset of paired prompts and user-agent conversations, generated with open-source large language models (LLM) and text-to-speech (TTS) models. To evaluate role conditioning in real-world settings, we extend the Full-Duplex-Bench benchmark beyond a single assistant role to multi-role customer service scenarios. Experiments show that PersonaPlex achieves strong role-conditioned behavior, voice-conditioned speech, and natural conversational responsiveness, surpassing state-of-the-art duplex speech models and hybrid large language model-based speech systems in role adherence, speaker similarity, latency, and naturalness.
- Abstract(参考訳): 最近の2重音声モデルの進歩により、自然な低遅延音声音声対話が可能になった。
しかし、既存のモデルは一定の役割と声に制限されており、構造化されたロール駆動の現実世界アプリケーションとパーソナライズされたインタラクションをサポートする能力を制限する。
本稿では、ハイブリッドシステムプロンプトを組み込んだ二重会話型音声モデルであるPersonaPlexを紹介し、ロールコンディショニングとテキストプロンプト、音声クローンと音声サンプルを組み合わせる。
PersonaPlexは、オープンソースの大規模言語モデル(LLM)とテキスト音声モデル(TTS)で生成された、ペア化されたプロンプトとユーザエージェントの会話の大規模な合成データセットに基づいて訓練されている。
実世界の環境でのロールコンディショニングを評価するため、Full-Duplex-Benchベンチマークを単一のアシスタントロールを超えて、マルチロールのカスタマーサービスシナリオに拡張する。
実験の結果,ペルソナプレックスは,役割適応性,話者類似性,レイテンシ,自然性において,最先端の二重言語モデルとハイブリッドな大言語モデルに基づく音声システムを上回る,強い役割条件付き行動,音声条件付き音声,自然な会話応答性を実現することが示された。
関連論文リスト
- F-Actor: Controllable Conversational Behaviour in Full-Duplex Models [70.48189107402145]
典型的な学術的制約下で効率的に訓練できる,第1にオープンかつ命令追従型全段階会話音声モデルを提案する。
我々のモデルは、大規模な事前訓練や多段階事前訓練に頼ることなく、わずか2000時間のデータしか必要としない。
モデルとトレーニングコードの両方がリリースされ、制御可能なフルステージ音声システムに関する再現可能な研究が可能になる。
論文 参考訳(メタデータ) (2026-01-16T14:25:57Z) - SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文 参考訳(メタデータ) (2025-05-26T17:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。