論文の概要: LLaMA-Omni: Seamless Speech Interaction with Large Language Models
- arxiv url: http://arxiv.org/abs/2409.06666v1
- Date: Tue, 10 Sep 2024 17:34:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 16:39:07.909159
- Title: LLaMA-Omni: Seamless Speech Interaction with Large Language Models
- Title(参考訳): LLaMA-Omni:大規模言語モデルとのシームレス音声対話
- Authors: Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui Ma, Shaolei Zhang, Yang Feng,
- Abstract要約: LLaMA-Omniは、大規模言語モデルとの低レイテンシで高品質な音声インタラクションのために設計された新しいモデルアーキテクチャである。
事前訓練された音声エンコーダ、音声適応器、LLM、ストリーミング音声デコーダを統合する。
レスポンスレイテンシは226ms以下で、コンテンツとスタイルの両方でより優れたレスポンスを提供する。
- 参考スコア(独自算出の注目度): 43.28912243888652
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Models like GPT-4o enable real-time interaction with large language models (LLMs) through speech, significantly enhancing user experience compared to traditional text-based interaction. However, there is still a lack of exploration on how to build speech interaction models based on open-source LLMs. To address this, we propose LLaMA-Omni, a novel model architecture designed for low-latency and high-quality speech interaction with LLMs. LLaMA-Omni integrates a pretrained speech encoder, a speech adaptor, an LLM, and a streaming speech decoder. It eliminates the need for speech transcription, and can simultaneously generate text and speech responses directly from speech instructions with extremely low latency. We build our model based on the latest Llama-3.1-8B-Instruct model. To align the model with speech interaction scenarios, we construct a dataset named InstructS2S-200K, which includes 200K speech instructions and corresponding speech responses. Experimental results show that compared to previous speech-language models, LLaMA-Omni provides better responses in both content and style, with a response latency as low as 226ms. Additionally, training LLaMA-Omni takes less than 3 days on just 4 GPUs, paving the way for the efficient development of speech-language models in the future.
- Abstract(参考訳): GPT-4oのようなモデルは、音声による大規模言語モデル(LLM)とのリアルタイムインタラクションを可能にし、従来のテキストベースのインタラクションに比べてユーザエクスペリエンスを著しく向上させる。
しかし、オープンソースのLLMをベースとした音声対話モデルの構築方法については、まだ検討されていない。
そこで我々はLLaMA-Omniを提案する。LLaMA-Omniは低レイテンシで高品質な音声対話を実現するために設計された新しいモデルアーキテクチャである。
LLaMA-Omniは、事前訓練された音声エンコーダ、音声適応器、LLM、ストリーミング音声デコーダを統合する。
音声の書き起こしは不要であり、非常に低レイテンシで音声命令から直接テキストと音声の応答を同時に生成することができる。
我々は最新のLlama-3.1-8B-Instructモデルに基づいてモデルを構築している。
モデルと音声対話のシナリオを一致させるために,200K音声命令と対応する音声応答を含むInstructS2S-200Kというデータセットを構築した。
実験結果から,LLaMA-Omniは従来の音声言語モデルと比較して,コンテンツとスタイルの双方で応答性が良く,応答遅延は226msであることがわかった。
さらに、LLaMA-Omniのトレーニングにはわずか4つのGPUで3日もかからない。
関連論文リスト
- Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM [44.59026505152727]
本稿では, Freeze-Omni という, 音声文によるマルチモーダルLLMアーキテクチャを提案する。
我々の主な貢献は、音声入力と出力のモダリティがテキストLLMに容易に接続できることである。
さらに,マルチタスク学習による二重対話能力を実現する手法も設計した。
論文 参考訳(メタデータ) (2024-11-01T17:59:51Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Speech Recognition Rescoring with Large Speech-Text Foundation Models [20.145389016219106]
大規模言語モデル(LLM)は、大量のテキストデータを活用することで、人間の言語を理解する能力を示した。
自動音声認識(ASR)システムは、しばしば利用可能な転写音声データによって制限される。
最近の多モーダルな言語モデルでは、強い音声言語理解が示されている。
論文 参考訳(メタデータ) (2024-09-25T06:17:23Z) - Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming [0.0]
ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。
そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。
また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
論文 参考訳(メタデータ) (2024-08-29T17:18:53Z) - Speak While You Think: Streaming Speech Synthesis During Text Generation [13.964169328257233]
大きな言語モデル(LLM)は印象的な能力を示しているが、これらのモデルとの相互作用は主にテキストで容易にできる。
LLM2Speechは、LLMによってテキストが生成されている間に音声を合成するアーキテクチャであり、遅延の大幅な低減をもたらす。
論文 参考訳(メタデータ) (2023-09-20T11:00:15Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。