論文の概要: LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis
- arxiv url: http://arxiv.org/abs/2505.02625v1
- Date: Mon, 05 May 2025 12:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.677813
- Title: LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis
- Title(参考訳): LLaMA-Omni2:自己回帰ストリーム音声合成によるLLMに基づくリアルタイム音声チャットボット
- Authors: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng,
- Abstract要約: LLaMA-Omni 2は,0.5Bから14Bまでの言語モデル(SpeechLM)である。
LLaMA-Omni 2はQwen2.5シリーズのモデルに基づいており、音声エンコーダと自動回帰ストリーミング音声デコーダを統合している。
- 参考スコア(独自算出の注目度): 43.533849239738394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-time, intelligent, and natural speech interaction is an essential part of the next-generation human-computer interaction. Recent advancements have showcased the potential of building intelligent spoken chatbots based on large language models (LLMs). In this paper, we introduce LLaMA-Omni 2, a series of speech language models (SpeechLMs) ranging from 0.5B to 14B parameters, capable of achieving high-quality real-time speech interaction. LLaMA-Omni 2 is built upon the Qwen2.5 series models, integrating a speech encoder and an autoregressive streaming speech decoder. Despite being trained on only 200K multi-turn speech dialogue samples, LLaMA-Omni 2 demonstrates strong performance on several spoken question answering and speech instruction following benchmarks, surpassing previous state-of-the-art SpeechLMs like GLM-4-Voice, which was trained on millions of hours of speech data.
- Abstract(参考訳): リアルタイム、インテリジェント、そして自然な音声対話は、次世代の人間とコンピュータの相互作用の重要な部分である。
近年,大規模言語モデル(LLM)に基づくインテリジェント音声チャットボットの開発が進んでいる。
本稿では,LLaMA-Omni 2について述べる。LLaMA-Omni 2は0.5Bから14Bのパラメータからなる一連の言語モデル(SpeechLM)で,高品質なリアルタイム音声対話を実現する。
LLaMA-Omni 2はQwen2.5シリーズのモデルに基づいており、音声エンコーダと自動回帰ストリーミング音声デコーダを統合している。
LLaMA-Omni 2は、たった200Kのマルチターン音声対話サンプルで訓練されているにもかかわらず、数千時間に及ぶ音声データに基づいて訓練されたGLM-4-Voiceのような最先端のSpeechLMを超越した、いくつかの音声質問応答と音声指示に対して強い性能を示す。
関連論文リスト
- MinMo: A Multimodal Large Language Model for Seamless Voice Interaction [73.39573341265027]
シームレスな音声対話のためのマルチモーダル大規模言語モデルMinMoを紹介する。
我々は、音声テキストから音声へのアライメント、テキストから音声へのアライメント、音声から音声へのアライメント、二重相互作用を通じてMinMoを訓練する。
マルチテキストトレーニングの後、MinMoは音声の理解と生成のための様々なベンチマークで最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-01-10T15:55:27Z) - GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot [30.866548518233433]
GLM-4-Voiceは、インテリジェントで人間らしく、エンド・ツー・エンドの音声チャットボットである。
中国語と英語の両方をサポートし、リアルタイムの音声会話に従事し、ユーザーの指示に応じて感情、イントネーション、発話速度、方言などの声のニュアンスを変化させる。
論文 参考訳(メタデータ) (2024-12-03T17:41:24Z) - Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM [44.59026505152727]
本稿では, Freeze-Omni という, 音声文によるマルチモーダルLLMアーキテクチャを提案する。
我々の主な貢献は、音声入力と出力のモダリティがテキストLLMに容易に接続できることである。
さらに,マルチタスク学習による二重対話能力を実現する手法も設計した。
論文 参考訳(メタデータ) (2024-11-01T17:59:51Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - LLaMA-Omni: Seamless Speech Interaction with Large Language Models [43.28912243888652]
LLaMA-Omniは、大規模言語モデルとの低レイテンシで高品質な音声インタラクションのために設計された新しいモデルアーキテクチャである。
事前訓練された音声エンコーダ、音声適応器、LLM、ストリーミング音声デコーダを統合する。
レスポンスレイテンシは226ms以下で、コンテンツとスタイルの両方でより優れたレスポンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T17:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。