論文の概要: PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2406.12428v2
- Date: Thu, 03 Oct 2024 05:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:53:13.634669
- Title: PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems
- Title(参考訳): PSLM:低レイテンシ音声対話システムのためのLLMによるテキストと音声の並列生成
- Authors: Kentaro Mitsui, Koh Mitsuda, Toshiaki Wakatsuki, Yukiya Hono, Kei Sawada,
- Abstract要約: テキストと音声の両方を処理するマルチモーダル言語モデルは、音声対話システムに応用できる可能性がある。
音声応答を生成するには、事前に書かれた応答を生成する必要があり、音声シーケンスはテキストシーケンスよりもかなり長い。
本研究では,テキストと音声の並列生成を支援するために,言語モデルの入力シーケンスと出力シーケンスを拡張することで,これらの問題に対処する。
- 参考スコア(独自算出の注目度): 7.326036800127981
- License:
- Abstract: Multimodal language models that process both text and speech have a potential for applications in spoken dialogue systems. However, current models face two major challenges in response generation latency: (1) generating a spoken response requires the prior generation of a written response, and (2) speech sequences are significantly longer than text sequences. This study addresses these issues by extending the input and output sequences of the language model to support the parallel generation of text and speech. Our experiments on spoken question answering tasks demonstrate that our approach improves latency while maintaining the quality of response content. Additionally, we show that latency can be further reduced by generating speech in multiple sequences. Demo samples are available at https://rinnakk.github.io/research/publications/PSLM.
- Abstract(参考訳): テキストと音声の両方を処理するマルチモーダル言語モデルは、音声対話システムに応用できる可能性がある。
しかし、現在のモデルでは、(1) 音声応答を生成するには、先行した応答を生成する必要があり、(2) 音声シーケンスは、テキストシーケンスよりもかなり長いという2つの大きな課題に直面している。
本研究では,テキストと音声の並列生成を支援するために,言語モデルの入力シーケンスと出力シーケンスを拡張することで,これらの問題に対処する。
音声質問応答タスクの実験では,応答内容の品質を維持しながら,レイテンシの向上を図っている。
さらに、複数のシーケンスで音声を生成することで、レイテンシをさらに削減できることを示す。
デモサンプルはhttps://rinnakk.github.io/research/publications/PSLMで公開されている。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - Speak While You Think: Streaming Speech Synthesis During Text Generation [13.964169328257233]
大きな言語モデル(LLM)は印象的な能力を示しているが、これらのモデルとの相互作用は主にテキストで容易にできる。
LLM2Speechは、LLMによってテキストが生成されている間に音声を合成するアーキテクチャであり、遅延の大幅な低減をもたらす。
論文 参考訳(メタデータ) (2023-09-20T11:00:15Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。