論文の概要: MinMo: A Multimodal Large Language Model for Seamless Voice Interaction
- arxiv url: http://arxiv.org/abs/2501.06282v1
- Date: Fri, 10 Jan 2025 15:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:27:06.113064
- Title: MinMo: A Multimodal Large Language Model for Seamless Voice Interaction
- Title(参考訳): MinMo: シームレス音声対話のためのマルチモーダル大言語モデル
- Authors: Qian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou,
- Abstract要約: シームレスな音声対話のためのマルチモーダル大規模言語モデルMinMoを紹介する。
我々は、音声テキストから音声へのアライメント、テキストから音声へのアライメント、音声から音声へのアライメント、二重相互作用を通じてMinMoを訓練する。
マルチテキストトレーニングの後、MinMoは音声の理解と生成のための様々なベンチマークで最先端のパフォーマンスを実現した。
- 参考スコア(独自算出の注目度): 73.39573341265027
- License:
- Abstract: Recent advancements in large language models (LLMs) and multimodal speech-text models have laid the groundwork for seamless voice interactions, enabling real-time, natural, and human-like conversations. Previous models for voice interactions are categorized as native and aligned. Native models integrate speech and text processing in one framework but struggle with issues like differing sequence lengths and insufficient pre-training. Aligned models maintain text LLM capabilities but are often limited by small datasets and a narrow focus on speech tasks. In this work, we introduce MinMo, a Multimodal Large Language Model with approximately 8B parameters for seamless voice interaction. We address the main limitations of prior aligned multimodal models. We train MinMo through multiple stages of speech-to-text alignment, text-to-speech alignment, speech-to-speech alignment, and duplex interaction alignment, on 1.4 million hours of diverse speech data and a broad range of speech tasks. After the multi-stage training, MinMo achieves state-of-the-art performance across various benchmarks for voice comprehension and generation while maintaining the capabilities of text LLMs, and also facilitates full-duplex conversation, that is, simultaneous two-way communication between the user and the system. Moreover, we propose a novel and simple voice decoder that outperforms prior models in voice generation. The enhanced instruction-following capabilities of MinMo supports controlling speech generation based on user instructions, with various nuances including emotions, dialects, and speaking rates, and mimicking specific voices. For MinMo, the speech-to-text latency is approximately 100ms, full-duplex latency is approximately 600ms in theory and 800ms in practice. The MinMo project web page is https://funaudiollm.github.io/minmo, and the code and models will be released soon.
- Abstract(参考訳): 大規模言語モデル(LLM)やマルチモーダル音声テキストモデル(Multimodal speech-text model)の最近の進歩は、シームレスな音声対話の基盤となり、リアルタイム、自然、人間のような会話を可能にしている。
従来の音声対話モデルは、ネイティブとアライメントに分類されていた。
ネイティブモデルは1つのフレームワークで音声とテキスト処理を統合するが、シーケンス長の異なる問題や事前学習の不十分な問題に対処する。
調整されたモデルはテキストLLM機能を維持できるが、小さなデータセットや音声タスクに限定されることが多い。
本研究では,音声のシームレスな対話を実現するため,約8Bパラメータを持つマルチモーダル大規模言語モデルMinMoを紹介する。
我々は,事前整列型マルチモーダルモデルの主な制約に対処する。
我々は、140万時間に及ぶ多様な音声データと幅広い音声タスクに基づいて、音声・テキスト・音声アライメント、テキスト・音声アライメント、音声・音声アライメント、二重相互作用アライメントの多段階を通してMinMoを訓練する。
マルチステージトレーニングの後、MinMoはテキストLLMの能力を維持しながら音声理解と生成のための様々なベンチマークで最先端のパフォーマンスを達成し、またユーザとシステム間の双方向の同時通信を可能にする。
さらに,従来の音声生成モデルよりも優れる新規でシンプルな音声デコーダを提案する。
MinMoの強化された指示追従能力は、感情、方言、発話率など様々なニュアンスを持つユーザ指示に基づく音声生成の制御をサポートし、特定の音声を模倣する。
MinMoの場合、音声からテキストまでのレイテンシは約100ms、完全二重レイテンシは約600ms、実際は800msである。
MinMoプロジェクトのWebページはhttps://funaudiollm.github.io/minmoである。
関連論文リスト
- Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
SpeechSSMは、テキスト中間子なしで1つの復号セッションで長い形式の音声を学習し、サンプリングする。
新しい埋め込みベースとLLM-judgedメトリクス、長さと時間による品質測定、長文音声処理と生成のための新しいベンチマークであるLibriSpeech-Long。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - LLaMA-Omni: Seamless Speech Interaction with Large Language Models [43.28912243888652]
LLaMA-Omniは、大規模言語モデルとの低レイテンシで高品質な音声インタラクションのために設計された新しいモデルアーキテクチャである。
事前訓練された音声エンコーダ、音声適応器、LLM、ストリーミング音声デコーダを統合する。
レスポンスレイテンシは226ms以下で、コンテンツとスタイルの両方でより優れたレスポンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T17:34:34Z) - BeAts: Bengali Speech Acts Recognition using Multimodal Attention Fusion [0.0]
我々は,音声のwav2vec2.0とテキスト翻訳のMarianMTの2つのモデルを組み合わせて,音声行動を予測する手法を開発した。
また,我々のモデルであるBeAts(underlinetextbfBe$ngali)がMultimodal $underlinetextbfAt$tention Fu$underlinetextbfs$ionを用いて音声認識を行うことを示す。
論文 参考訳(メタデータ) (2023-06-05T08:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。