論文の概要: Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM
- arxiv url: http://arxiv.org/abs/2411.00774v2
- Date: Tue, 12 Nov 2024 02:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:28.180961
- Title: Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM
- Title(参考訳): Freeze-Omni:凍結LDMを用いたスマートかつ低レイテンシ音声音声対話モデル
- Authors: Xiong Wang, Yangze Li, Chaoyou Fu, Yunhang Shen, Lei Xie, Ke Li, Xing Sun, Long Ma,
- Abstract要約: 本稿では, Freeze-Omni という, 音声文によるマルチモーダルLLMアーキテクチャを提案する。
我々の主な貢献は、音声入力と出力のモダリティがテキストLLMに容易に接続できることである。
我々は、音声入力と出力のモデリングのための3段階の訓練戦略を設計し、フリーズ・オムニが音声音声対話能力を得ることができるようにした。
- 参考スコア(独自算出の注目度): 44.59026505152727
- License:
- Abstract: Rapidly developing large language models (LLMs) have brought tremendous intelligent applications. GPT-4o's excellent duplex speech interaction ability has recently brought impressive experience to users. Researchers have recently proposed several multi-modal LLMs in this direction that can achieve speech-to-speech dialogue. This paper proposes a novel speech-text multimodal LLM architecture called Freeze-Omni. Our main contribution is that the speech input and output modalities can be easily connected to a textual LLM while keeping the LLM's parameters frozen throughout the training process. We designed 3-stage training strategies both for the modeling of speech input and output, enabling Freeze-Omni to obtain speech-to-speech dialogue ability using text-speech paired data (such as ASR and TTS data) and only 60,000 multi-round text Q&A data on 8 GPUs. Moreover, we can effectively ensure that the intelligence of the Freeze-Omni in the speech modality is at the same level compared with that in the text modality of its backbone LLM, while the end-to-end latency of the spoken response achieves a low level. In addition, we also designed a method to achieve duplex dialogue ability through multi-task training, making Freeze-Omni have a more natural style of dialogue ability between the users. Freeze-Omni mainly provides a possibility for researchers to conduct multimodal LLM under the condition of a frozen LLM, avoiding various impacts caused by the catastrophic forgetting of LLM caused by fewer data and training resources.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発は、非常にインテリジェントなアプリケーションをもたらしました。
GPT-4oの優れた二重音声対話能力は、最近、ユーザーに印象的な体験をもたらした。
研究者らは最近、音声音声対話を実現するために、この方向に複数のマルチモーダルLLMを提案している。
本稿では, Freeze-Omni という, 音声文によるマルチモーダルLLMアーキテクチャを提案する。
我々の主な貢献は、学習過程を通してLLMのパラメータを凍結させながら、音声入力と出力のモダリティをテキストLLMに簡単に接続できることである。
我々は、音声入力と出力のモデリングのための3段階のトレーニング戦略を設計し、Fryze-Omniは、テキスト音声ペアデータ(ASRやTSデータなど)と8GPU上の6万のマルチラウンドテキストQ&Aデータを用いて音声音声対話能力を得ることができるようにした。
さらに, 音声認識におけるフリーズ・オムニのインテリジェンスが, バックボーンLLMのテキストモダリティと同等であること, 音声応答の終端遅延が低レベルであること, を効果的に保証できる。
さらに,マルチタスクトレーニングによる二重対話機能を実現する手法も設計し,ユーザ間の対話性をより自然なスタイルで実現した。
フリーズ・オムニは、主に、研究者が凍結LDMの条件下でマルチモーダルLSMを実行する可能性を提供しており、データやトレーニング資源の減少によるLLMの破滅的な忘れ込みによる様々な影響を避けることができる。
関連論文リスト
- Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。
さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文 参考訳(メタデータ) (2024-10-27T04:28:57Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - Speak While You Think: Streaming Speech Synthesis During Text Generation [13.964169328257233]
大きな言語モデル(LLM)は印象的な能力を示しているが、これらのモデルとの相互作用は主にテキストで容易にできる。
LLM2Speechは、LLMによってテキストが生成されている間に音声を合成するアーキテクチャであり、遅延の大幅な低減をもたらす。
論文 参考訳(メタデータ) (2023-09-20T11:00:15Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。