論文の概要: SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation
- arxiv url: http://arxiv.org/abs/2501.00805v1
- Date: Wed, 01 Jan 2025 11:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:40.722585
- Title: SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation
- Title(参考訳): SLIDE:自発音声対話生成のためのLLMと音声言語モデルの統合
- Authors: Haitian Lu, Gaofeng Cheng, Liuping Luo, Leying Zhang, Yanmin Qian, Pengyuan Zhang,
- Abstract要約: 本稿では,自発音声対話gEnerationのためのSLMとLLMの統合を提案する。
本研究では,テキスト対話を音素シーケンスに変換し,音素の持続時間を予測するために2tower変換器を用いた継続時間予測手法を提案する。
Fisherデータセットを用いた実験結果から,本システムは高意味的コヒーレンスを維持しつつ,自然な音声対話を生成可能であることが示された。
- 参考スコア(独自算出の注目度): 56.683846056788326
- License:
- Abstract: Recently, ``textless" speech language models (SLMs) based on speech units have made huge progress in generating naturalistic speech, including non-verbal vocalizations. However, the generated speech samples often lack semantic coherence. In this paper, we propose SLM and LLM Integration for spontaneous spoken Dialogue gEneration (SLIDE). Specifically, we first utilize an LLM to generate the textual content of spoken dialogue. Next, we convert the textual dialogues into phoneme sequences and use a two-tower transformer-based duration predictor to predict the duration of each phoneme. Finally, an SLM conditioned on the spoken phoneme sequences is used to vocalize the textual dialogue. Experimental results on the Fisher dataset demonstrate that our system can generate naturalistic spoken dialogue while maintaining high semantic coherence.
- Abstract(参考訳): 近年,音声単位に基づく「テキストレス」音声言語モデル (SLM) は,非言語発声を含む自然主義音声の生成において大きな進歩を遂げている。
しかし、生成された音声サンプルは意味的コヒーレンスを欠いていることが多い。
本稿では,自発音声対話gEneration(SLIDE)のためのSLMとLLMの統合を提案する。
具体的には、まずLLMを用いて音声対話のテキスト内容を生成する。
次に,テキスト対話を音素シーケンスに変換し,音素の持続時間を予測するために2tower変換器を用いた継続時間予測器を用いる。
最後に、音声音素系列に条件付けされたSLMを用いて、テキスト対話を音声化する。
Fisherデータセットを用いた実験結果から,本システムは高意味的コヒーレンスを維持しつつ,自然な音声対話を生成可能であることが示された。
関連論文リスト
- OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - Advancing Large Language Models to Capture Varied Speaking Styles and Respond Properly in Spoken Conversations [65.29513437838457]
現在の2つの旋回が同じ文であっても、異なるスタイルで話されるときの応答は相変わらず異なる。
本稿では,言語内容と発話スタイルをモデル化できるSpken-LLMフレームワークを提案する。
StyleTalkデータセットを使用してSpoken-LLMをトレーニングし、Spoken-LLMが話し方を学ぶのに役立つ2段階のトレーニングパイプラインを作成します。
論文 参考訳(メタデータ) (2024-02-20T07:51:43Z) - Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Towards human-like spoken dialogue generation between AI agents from
written dialogue [8.4989907582951]
本研究では,CHATS - CHATS-CHATty Agents Text-to-Speechを提案する。
本システムでは,話者側とリスナー側の両方に対して,話者側からの書き起こしのみを用いて同時に音声を生成することができる。
論文 参考訳(メタデータ) (2023-10-02T11:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。