論文の概要: LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM
- arxiv url: http://arxiv.org/abs/2503.04724v1
- Date: Thu, 06 Mar 2025 18:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:03.524996
- Title: LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM
- Title(参考訳): LLMVoX:任意のLLMのための自動回帰ストリーミングテキスト音声モデル
- Authors: Sambal Shikhar, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jean Lahoud, Fahad Khan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal,
- Abstract要約: 本稿では、低レイテンシで高品質な音声を生成する軽量で自己回帰型ストリーミングTSシステムを提案する。
提案手法は,音声対応LLMに比べて単語誤り率を著しく低くし,レイテンシとUTMOSスコアに匹敵する操作を行う。
- 参考スコア(独自算出の注目度): 35.443850239910866
- License:
- Abstract: Recent advancements in speech-to-speech dialogue systems leverage LLMs for multimodal interactions, yet they remain hindered by fine-tuning requirements, high computational overhead, and text-speech misalignment. Existing speech-enabled LLMs often degrade conversational quality by modifying the LLM, thereby compromising its linguistic capabilities. In contrast, we propose LLMVoX, a lightweight 30M-parameter, LLM-agnostic, autoregressive streaming TTS system that generates high-quality speech with low latency, while fully preserving the capabilities of the base LLM. Our approach achieves a significantly lower Word Error Rate compared to speech-enabled LLMs, while operating at comparable latency and UTMOS score. By decoupling speech synthesis from LLM processing via a multi-queue token streaming system, LLMVoX supports seamless, infinite-length dialogues. Its plug-and-play design also facilitates extension to various tasks with different backbones. Furthermore, LLMVoX generalizes to new languages with only dataset adaptation, attaining a low Character Error Rate on an Arabic speech task. Additionally, we have integrated LLMVoX with a Vision-Language Model to create an omni-model with speech, text, and vision capabilities, without requiring additional multimodal training. Our code base and project page is available at https://mbzuai-oryx.github.io/LLMVoX .
- Abstract(参考訳): 音声音声対話システムの最近の進歩は、マルチモーダルな相互作用にLLMを活用しているが、細調整の要求、高い計算オーバーヘッド、テキスト音声の誤調整によって妨げられている。
既存の音声対応LLMは、LLMを変更することで会話品質を低下させることが多く、それによって言語能力が損なわれる。
対照的に, LLMVoX は軽量な 30M パラメータ, LLM に依存しない自己回帰型ストリーミング TTS システムである。
提案手法は,音声対応LLMに比べて単語誤り率を著しく低くし,レイテンシとUTMOSスコアに匹敵する操作を行う。
LLM処理からマルチキュートークンストリーミングシステムを介して音声合成を分離することにより、LLMVoXはシームレスで無限長の対話をサポートする。
プラグアンドプレイのデザインは、バックボーンの異なる様々なタスクの拡張を容易にする。
さらに、LLMVoXはデータセット適応のみで新しい言語に一般化し、アラビア音声タスクにおいて文字誤り率を低くする。
さらに,LLMVoXを視覚言語モデルと統合し,音声,テキスト,視覚機能を備えたオムニモデルを作成する。
私たちのコードベースとプロジェクトページはhttps://mbzuai-oryx.github.io/LLMVoX で公開されています。
関連論文リスト
- Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM [44.59026505152727]
本稿では, Freeze-Omni という, 音声文によるマルチモーダルLLMアーキテクチャを提案する。
我々の主な貢献は、音声入力と出力のモダリティがテキストLLMに容易に接続できることである。
さらに,マルチタスク学習による二重対話能力を実現する手法も設計した。
論文 参考訳(メタデータ) (2024-11-01T17:59:51Z) - Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。
さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文 参考訳(メタデータ) (2024-10-27T04:28:57Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z) - Speak While You Think: Streaming Speech Synthesis During Text Generation [13.964169328257233]
大きな言語モデル(LLM)は印象的な能力を示しているが、これらのモデルとの相互作用は主にテキストで容易にできる。
LLM2Speechは、LLMによってテキストが生成されている間に音声を合成するアーキテクチャであり、遅延の大幅な低減をもたらす。
論文 参考訳(メタデータ) (2023-09-20T11:00:15Z) - Prompting Large Language Models with Speech Recognition Abilities [31.77576008965215]
我々は,音声認識を行うための小型オーディオエンコーダを直接取り付けることで,大規模言語モデルの能力を拡張した。
MultilingualSpeechの実験では、コンバータエンコーダをオープンソースのLLaMA-7Bに組み込むことで、モノリンガルベースラインを18%上回る結果となった。
論文 参考訳(メタデータ) (2023-07-21T08:39:15Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。