論文の概要: OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction
- arxiv url: http://arxiv.org/abs/2505.20277v1
- Date: Mon, 26 May 2025 17:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.14314
- Title: OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction
- Title(参考訳): OmniCharacter:シームレス音声・言語パーソナリティインタラクションを用いた没入型ロールプレイングエージェントを目指して
- Authors: Haonan Zhang, Run Luo, Xiong Liu, Yuchuan Wu, Ting-En Lin, Pengpeng Zeng, Qiang Qu, Feiteng Fang, Min Yang, Lianli Gao, Jingkuan Song, Fei Huang, Yongbin Li,
- Abstract要約: OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
- 参考スコア(独自算出の注目度): 123.89581506075461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Role-Playing Agents (RPAs), benefiting from large language models, is an emerging interactive AI system that simulates roles or characters with diverse personalities. However, existing methods primarily focus on mimicking dialogues among roles in textual form, neglecting the role's voice traits (e.g., voice style and emotions) as playing a crucial effect in interaction, which tends to be more immersive experiences in realistic scenarios. Towards this goal, we propose OmniCharacter, a first seamless speech-language personality interaction model to achieve immersive RPAs with low latency. Specifically, OmniCharacter enables agents to consistently exhibit role-specific personality traits and vocal traits throughout the interaction, enabling a mixture of speech and language responses. To align the model with speech-language scenarios, we construct a dataset named OmniCharacter-10K, which involves more distinctive characters (20), richly contextualized multi-round dialogue (10K), and dynamic speech response (135K). Experimental results showcase that our method yields better responses in terms of both content and style compared to existing RPAs and mainstream speech-language models, with a response latency as low as 289ms. Code and dataset are available at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/OmniCharacter.
- Abstract(参考訳): ロールプレイングエージェント(RPAs、Role-Playing Agents)は、さまざまな個性を持つ役割やキャラクターをシミュレートする対話型AIシステムである。
しかし、既存の手法は主にテキスト形式で役割間の対話を模倣することに焦点を当てており、現実的なシナリオにおいてより没入的な経験を持つ傾向にある相互作用において重要な効果を発揮するものとして、役割の音声特性(例えば、声のスタイルや感情)を無視している。
この目的に向けて,低レイテンシで没入型 RPA を実現するために,最初のシームレスな音声・音声対話モデルであるOmniCharacter を提案する。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示し、スピーチと言語応答の混合を可能にする。
モデルと音声のシナリオを一致させるため,OmniCharacter-10Kというデータセットを構築した。
実験結果から,提案手法は既存のRPAや主流言語モデルと比較して,応答遅延が289ms以下で,内容とスタイルの両面で優れた応答が得られることが示された。
コードとデータセットはhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/OmniCharacterで入手できる。
関連論文リスト
- Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play [21.93291433513335]
Voilaは応答遅延をわずか195ミリ秒で達成し、平均的な人間の応答時間を上回る。
その階層的なマルチスケールトランスフォーマーは、大規模言語モデルの推論機能を統合する。
Voilaは、100万以上のプレビルドされた音声をサポートし、短いオーディオサンプルから10秒で新しい音声を効率的にカスタマイズする。
論文 参考訳(メタデータ) (2025-05-05T15:05:01Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Crafting Customisable Characters with LLMs: Introducing SimsChat, a Persona-Driven Role-Playing Agent Framework [29.166067413153353]
大きな言語モデル(LLM)は、命令を理解し、人間に似たテキストを生成する素晴らしい能力を示す。
実世界のキャラクターをシミュレートするためにLLMを利用するCustomisable Conversation Agent Frameworkを導入する。
我々は,様々な現実的な設定を取り入れた自由にカスタマイズ可能なロールプレイングエージェントであるSimsChatを紹介する。
論文 参考訳(メタデータ) (2024-06-25T22:44:17Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - RoleCraft-GLM: Advancing Personalized Role-Playing in Large Language Models [6.753588449962107]
RoleCraft-GLMは、大規模言語モデル(LLM)によるパーソナライズされたロールプレイングの強化を目的とした革新的なフレームワークである。
従来の有名人中心のキャラクターから多彩な非有名人ペルソナへとシフトする、ユニークな会話データセットをコントリビュートする。
私たちのアプローチには、細心の注意深いキャラクタ開発、対話が現実的かつ感情的に共鳴することを保証することが含まれる。
論文 参考訳(メタデータ) (2023-12-17T17:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。