論文の概要: PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models
- arxiv url: http://arxiv.org/abs/2602.06053v1
- Date: Wed, 14 Jan 2026 07:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.665133
- Title: PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models
- Title(参考訳): ペルソナプレックス:全二重会話音声モデルにおける音声と役割制御
- Authors: Rajarshi Roy, Jonathan Raiman, Sang-gil Lee, Teodor-Dumitru Ene, Robert Kirby, Sungwon Kim, Jaehyeon Kim, Bryan Catanzaro,
- Abstract要約: 本稿では,ハイブリッドシステムプロンプトを組み込んだ二重会話音声モデルであるPersonaPlexを紹介する。
PersonaPlexは、ペア化されたプロンプトとユーザエージェントによる会話の大規模な合成データセットに基づいてトレーニングされている。
実験の結果,ペルソナプレックスは強い役割条件付き行動,音声条件付き音声,自然な会話応答性を実現していることがわかった。
- 参考スコア(独自算出の注目度): 33.33273575953341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in duplex speech models have enabled natural, low-latency speech-to-speech interactions. However, existing models are restricted to a fixed role and voice, limiting their ability to support structured, role-driven real-world applications and personalized interactions. In this work, we introduce PersonaPlex, a duplex conversational speech model that incorporates hybrid system prompts, combining role conditioning with text prompts and voice cloning with speech samples. PersonaPlex is trained on a large-scale synthetic dataset of paired prompts and user-agent conversations, generated with open-source large language models (LLM) and text-to-speech (TTS) models. To evaluate role conditioning in real-world settings, we extend the Full-Duplex-Bench benchmark beyond a single assistant role to multi-role customer service scenarios. Experiments show that PersonaPlex achieves strong role-conditioned behavior, voice-conditioned speech, and natural conversational responsiveness, surpassing state-of-the-art duplex speech models and hybrid large language model-based speech systems in role adherence, speaker similarity, latency, and naturalness.
- Abstract(参考訳): 最近の2重音声モデルの進歩により、自然な低遅延音声音声対話が可能になった。
しかし、既存のモデルは一定の役割と声に制限されており、構造化されたロール駆動の現実世界アプリケーションとパーソナライズされたインタラクションをサポートする能力を制限する。
本稿では、ハイブリッドシステムプロンプトを組み込んだ二重会話型音声モデルであるPersonaPlexを紹介し、ロールコンディショニングとテキストプロンプト、音声クローンと音声サンプルを組み合わせる。
PersonaPlexは、オープンソースの大規模言語モデル(LLM)とテキスト音声モデル(TTS)で生成された、ペア化されたプロンプトとユーザエージェントの会話の大規模な合成データセットに基づいて訓練されている。
実世界の環境でのロールコンディショニングを評価するため、Full-Duplex-Benchベンチマークを単一のアシスタントロールを超えて、マルチロールのカスタマーサービスシナリオに拡張する。
実験の結果,ペルソナプレックスは,役割適応性,話者類似性,レイテンシ,自然性において,最先端の二重言語モデルとハイブリッドな大言語モデルに基づく音声システムを上回る,強い役割条件付き行動,音声条件付き音声,自然な会話応答性を実現することが示された。
関連論文リスト
- Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。
対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文 参考訳(メタデータ) (2026-02-10T14:31:11Z) - F-Actor: Controllable Conversational Behaviour in Full-Duplex Models [70.48189107402145]
典型的な学術的制約下で効率的に訓練できる,第1にオープンかつ命令追従型全段階会話音声モデルを提案する。
我々のモデルは、大規模な事前訓練や多段階事前訓練に頼ることなく、わずか2000時間のデータしか必要としない。
モデルとトレーニングコードの両方がリリースされ、制御可能なフルステージ音声システムに関する再現可能な研究が可能になる。
論文 参考訳(メタデータ) (2026-01-16T14:25:57Z) - SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [78.01028753403575]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。
フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。
提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-01T07:51:45Z) - OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文 参考訳(メタデータ) (2025-05-26T17:55:06Z) - Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play [21.93291433513335]
Voilaは応答遅延をわずか195ミリ秒で達成し、平均的な人間の応答時間を上回る。
その階層的なマルチスケールトランスフォーマーは、大規模言語モデルの推論機能を統合する。
Voilaは、100万以上のプレビルドされた音声をサポートし、短いオーディオサンプルから10秒で新しい音声を効率的にカスタマイズする。
論文 参考訳(メタデータ) (2025-05-05T15:05:01Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。