論文の概要: Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM
- arxiv url: http://arxiv.org/abs/2411.00774v1
- Date: Fri, 01 Nov 2024 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:00.028760
- Title: Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM
- Title(参考訳): Freeze-Omni:凍結LDMを用いたスマートかつ低レイテンシ音声音声対話モデル
- Authors: Xiong Wang, Yangze Li, Chaoyou Fu, Lei Xie, Ke Li, Xing Sun, Long Ma,
- Abstract要約: 本稿では,Freeze-Omni という,音声文によるマルチモーダルLLMアーキテクチャを提案する。
我々の主な貢献は、学習過程を通してLLMを凍結させながらLLMに接続できる音声入力と出力のモダリティである。
我々は、音声入力と出力のモデリングのための3段階の訓練戦略を設計し、フリーズ・オムニが音声音声対話能力を得ることができるようにした。
- 参考スコア(独自算出の注目度): 37.97896436323722
- License:
- Abstract: The rapid development of large language models has brought many new smart applications, especially the excellent multimodal human-computer interaction in GPT-4o has brought impressive experience to users. In this background, researchers have proposed many multimodal LLMs that can achieve speech-to-speech dialogue recently. In this paper, we propose a speech-text multimodal LLM architecture called Freeze-Omni. Our main contribution is the speech input and output modalities can connected to the LLM while keeping the LLM frozen throughout the training process. We designed 3-stage training strategies both for the modeling of speech input and output, enabling Freeze-Omni to obtain speech-to-speech dialogue ability using text-speech paired data (such as ASR and TTS data) and only 60,000 multi-round text Q&A data on 8 GPUs. Moreover, we can effectively ensure that the intelligence of the Freeze-Omni in the speech modality is at the same level compared with that in the text modality of its backbone LLM, while the end-to-end latency of the spoken response achieves a low level. In addition, we also designed a method to achieve duplex dialogue ability through multi-task training, making Freeze-Omni have a more natural style of dialogue ability between the users. Freeze-Omni mainly provides a possibility for researchers to conduct multimodal LLM under the condition of a frozen LLM, avoiding various impacts caused by the catastrophic forgetting of LLM caused by fewer data and training resources.
- Abstract(参考訳): 大規模言語モデルの急速な開発は、多くの新しいスマートアプリケーションをもたらし、特にGPT-4oにおける優れたマルチモーダルなヒューマンコンピュータインタラクションは、ユーザーに印象的な体験をもたらした。
この背景から,近年,音声音声対話を実現するマルチモーダルLLMが多数提案されている。
本稿では,フリーズ・オムニ (Freeze-Omni) と呼ばれるマルチモーダルLLMアーキテクチャを提案する。
我々の主な貢献は、学習過程を通してLLMを凍結させながらLLMに接続できる音声入力と出力のモダリティである。
我々は、音声入力と出力のモデリングのための3段階のトレーニング戦略を設計し、Fryze-Omniは、テキスト音声ペアデータ(ASRやTSデータなど)と8GPU上の6万のマルチラウンドテキストQ&Aデータを用いて音声音声対話能力を得ることができるようにした。
さらに, 音声認識におけるフリーズ・オムニのインテリジェンスが, バックボーンLLMのテキストモダリティと同等であること, 音声応答の終端遅延が低レベルであること, を効果的に保証できる。
さらに,マルチタスクトレーニングによる二重対話機能を実現する手法も設計し,ユーザ間の対話性をより自然なスタイルで実現した。
フリーズ・オムニは、主に、研究者が凍結LDMの条件下でマルチモーダルLSMを実行する可能性を提供しており、データやトレーニング資源の減少によるLLMの破滅的な忘れ込みによる様々な影響を避けることができる。
関連論文リスト
- Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。
さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文 参考訳(メタデータ) (2024-10-27T04:28:57Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - A Full-duplex Speech Dialogue Scheme Based On Large Language Models [23.994130020644842]
シームレスな対話を可能にする 生成生成対話システムです
システムは問い合わせ応答のためのトークンを生成し、ユーザを待ち、あるいは操作するために自律的な決定を行う。
論文 参考訳(メタデータ) (2024-05-29T20:05:46Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。