Fugu-MT 論文翻訳(概要): FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

論文の概要: FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

arxiv url: http://arxiv.org/abs/2407.04051v3
Date: Thu, 11 Jul 2024 02:08:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 12:15:14.325808
Title: FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
Title（参考訳）: FunAudioLLM:人間とLLMの自然な相互作用のための音声理解と生成基盤モデル
Authors: Keyu An, Qian Chen, Chong Deng, Zhihao Du, Changfeng Gao, Zhifu Gao, Yue Gu, Ting He, Hangrui Hu, Kai Hu, Shengpeng Ji, Yabin Li, Zerui Li, Heng Lu, Haoneng Luo, Xiang Lv, Bin Ma, Ziyang Ma, Chongjia Ni, Changhe Song, Jiaqi Shi, Xian Shi, Hao Wang, Wen Wang, Yuxuan Wang, Zhangyu Xiao, Zhijie Yan, Yexin Yang, Bin Zhang, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Siqi Zheng,
Abstract要約: FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
参考スコア（独自算出の注目度）: 63.8261207950923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This report introduces FunAudioLLM, a model family designed to enhance natural voice interactions between humans and large language models (LLMs). At its core are two innovative models: SenseVoice, which handles multilingual speech recognition, emotion recognition, and audio event detection; and CosyVoice, which facilitates natural speech generation with control over multiple languages, timbre, speaking style, and speaker identity. SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and SenseVoice-Large supports high-precision ASR for over 50 languages, while CosyVoice excels in multi-lingual voice generation, zero-shot in-context learning, cross-lingual voice cloning, and instruction-following capabilities. The models related to SenseVoice and CosyVoice have been open-sourced on Modelscope and Huggingface, along with the corresponding training, inference, and fine-tuning codes released on GitHub. By integrating these models with LLMs, FunAudioLLM enables applications such as speech-to-speech translation, emotional voice chat, interactive podcasts, and expressive audiobook narration, thereby pushing the boundaries of voice interaction technology. Demos are available at https://fun-audio-llm.github.io, and the code can be accessed at https://github.com/FunAudioLLM.
Abstract（参考訳）: 本報告では,人間と大規模言語モデル(LLM)との自然な音声対話を強化するモデルファミリーであるFunAudioLLMを紹介する。中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoice-Smallは5つの言語で例外的に低レイテンシASRを提供し、SenseVoice-Largeは50以上の言語で高精度ASRをサポートし、CosyVoiceは多言語音声生成、ゼロショットインコンテキスト学習、クロスリンガル音声クローニング、命令フォロー機能に優れている。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。これらのモデルをLLMと統合することにより、FunAudioLLMは音声音声翻訳、感情音声チャット、対話型ポッドキャスト、表現型オーディオブックナレーションといった応用を可能にし、音声インタラクション技術の境界を押し進める。デモはhttps://fun-audio-llm.github.ioで、コードはhttps://github.com/FunAudioLLMでアクセスできる。

関連論文リスト

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing [37.022292043526186]
VoiceCraft-Xは、多言語音声編集とテキスト音声合成を統合する自動回帰型ニューラルネットワークモデルである。 VoiceCraft-Xは、言語毎に限られたデータであっても、多様な言語設定で堅牢なパフォーマンスを示す。
論文参考訳（メタデータ） (2025-11-15T20:27:25Z)
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。 CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文参考訳（メタデータ） (2025-05-23T07:55:21Z)
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play [21.93291433513335]
Voilaは応答遅延をわずか195ミリ秒で達成し、平均的な人間の応答時間を上回る。その階層的なマルチスケールトランスフォーマーは、大規模言語モデルの推論機能を統合する。 Voilaは、100万以上のプレビルドされた音声をサポートし、短いオーディオサンプルから10秒で新しい音声を効率的にカスタマイズする。
論文参考訳（メタデータ） (2025-05-05T15:05:01Z)
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文参考訳（メタデータ） (2024-12-13T12:59:39Z)
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
GPT-4oは、多様な感情や声調を持つ声の会話を可能にするオムニモーダルモデルである。本研究では,エンド・ツー・エンドの音声機能を備えた大規模言語モデルを実現するためのEMOVAを提案する。 EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文参考訳（メタデータ） (2024-09-26T16:44:02Z)
OpenVoice: Versatile Instant Voice Cloning [22.217256641284106]
本稿では,多目的音声クローニング手法であるOpenVoiceを紹介する。音声を再現し、複数の言語で音声を生成するために、参照話者からの短い音声クリップしか必要としない。 OpenVoiceは世界中の200万人以上のユーザーがMyShell.aiの音声エンジンとして使っている。
論文参考訳（メタデータ） (2023-12-03T18:41:54Z)
SALMONN: Towards Generic Hearing Abilities for Large Language Models [24.73033723114979]
音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。事前訓練されたテキストベースの大規模言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合することによって構築される。これは、そのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへのステップと見なすことができる。
論文参考訳（メタデータ） (2023-10-20T05:41:57Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文参考訳（メタデータ） (2023-06-05T15:53:15Z)
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。 VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文参考訳（メタデータ） (2023-03-07T14:31:55Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。