Fugu-MT 論文翻訳(概要): Boosting Large Language Model for Speech Synthesis: An Empirical Study

論文の概要: Boosting Large Language Model for Speech Synthesis: An Empirical Study

arxiv url: http://arxiv.org/abs/2401.00246v1
Date: Sat, 30 Dec 2023 14:20:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 18:20:22.337269
Title: Boosting Large Language Model for Speech Synthesis: An Empirical Study
Title（参考訳）: 音声合成のための大規模言語モデルの構築 : 実証的研究
Authors: Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei
Abstract要約: 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
参考スコア（独自算出の注目度）: 86.89548753080432
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have made significant advancements in natural language processing and are concurrently extending the language ability to other modalities, such as speech and vision. Nevertheless, most of the previous work focuses on prompting LLMs with perception abilities like auditory comprehension, and the effective approach for augmenting LLMs with speech synthesis capabilities remains ambiguous. In this paper, we conduct a comprehensive empirical exploration of boosting LLMs with the ability to generate speech, by combining pre-trained LLM LLaMA/OPT and text-to-speech synthesis model VALL-E. We compare three integration methods between LLMs and speech synthesis models, including directly fine-tuned LLMs, superposed layers of LLMs and VALL-E, and coupled LLMs and VALL-E using LLMs as a powerful text encoder. Experimental results show that, using LoRA method to fine-tune LLMs directly to boost the speech synthesis capability does not work well, and superposed LLMs and VALL-E can improve the quality of generated speech both in speaker similarity and word error rate (WER). Among these three methods, coupled methods leveraging LLMs as the text encoder can achieve the best performance, making it outperform original speech synthesis models with a consistently better speaker similarity and a significant (10.9%) WER reduction.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。しかし,従来の研究のほとんどは聴覚理解などの知覚能力を持つLLMの促進に焦点が当てられており,音声合成機能を備えたLLMの効果的な拡張手法はいまだ曖昧である。本稿では,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。我々は,LLMと音声合成モデルの3つの統合手法を比較し,LLMとVALL-Eの重ね合わせ層,LLMを強力なテキストエンコーダとして用いたLLMとVALL-Eを組み合わせる。実験結果から,LoRA法を用いてLLMを直接微調整して音声合成能力を向上することは困難であり,重畳されたLLMとVALL-Eは,話者類似性と単語誤り率(WER)の両方において,生成音声の品質を向上させることができることがわかった。これら3つの方法のうち、LLMをテキストエンコーダとして活用することで最高の性能を達成でき、話者類似性が一貫して向上し、WERの大幅な削減(10.9%)を達成できる。

関連論文リスト

Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities [20.51281468416298]
指向性を大規模言語モデル(LLM)に統合する2つの新しいアプローチを提案する。これらのアプローチはすべて、スマートグラスに埋め込まれたマルチマイクロホンアレイを使用して、指向性解釈と処理をストリーミング的に最適化する。
論文参考訳（メタデータ） (2026-02-06T21:45:48Z)
FastSLM: Hierarchical Frame Q-Former for Effective Speech Modality Adaptation [3.8125534288516683]
FastSLMは、長文音声に対する効果的な理解と推論のために設計された軽量で効率的な音声言語モデル(SLM)である。本稿では,多岐にわたる音声関連タスクの一般化を促進する新しい3段階学習戦略を提案する。実験結果から,FastSLMは既存の最先端モデルと比較して競争性能が向上することが示された。
論文参考訳（メタデータ） (2026-01-08T07:46:03Z)
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM [35.443850239910866]
本稿では、低レイテンシで高品質な音声を生成する軽量で自己回帰型ストリーミングTSシステムを提案する。提案手法は,音声対応LLMに比べて単語誤り率を著しく低くし,レイテンシとUTMOSスコアに匹敵する操作を行う。
論文参考訳（メタデータ） (2025-03-06T18:59:38Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。 LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis [4.762487293009696]
本稿では,LLM Gesticulatorについて述べる。本フレームワークは、自然な動きと編集性を示しながら、入力音声とリズミカルに整合したフルボディアニメーションを合成する。また,本手法は,テキストプロンプトによって生成したジェスチャーの内容やスタイルを制御できる強い制御性を示す。
論文参考訳（メタデータ） (2024-10-06T12:53:07Z)
Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data [30.966072545451183]
本論文では,MutltiLingual MultiTask (MLMT)モデルを提案する。我々は,異なる言語からの単語を分割し,CSデータに頼ることなくCS能力を備えた合成を行う,効果的なデータ構築手法を開発した。
論文参考訳（メタデータ） (2024-09-17T08:11:07Z)
Prompting Large Language Models with Audio for General-Purpose Speech Summarization [13.415189715216354]
大規模言語モデル(LLM)の処理と推論機能を活用した音声要約フレームワークを提案する。本稿では,LLM が解釈可能なトークン表現に変換する音声エンコーダと命令調整 LLM を組み合わせたエンドツーエンドシステムを提案する。
論文参考訳（メタデータ） (2024-06-10T02:04:28Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文参考訳（メタデータ） (2024-02-13T23:25:04Z)
Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文参考訳（メタデータ） (2023-12-21T05:32:49Z)
Prompting Large Language Models with Speech Recognition Abilities [31.77576008965215]
我々は,音声認識を行うための小型オーディオエンコーダを直接取り付けることで,大規模言語モデルの能力を拡張した。 MultilingualSpeechの実験では、コンバータエンコーダをオープンソースのLLaMA-7Bに組み込むことで、モノリンガルベースラインを18%上回る結果となった。
論文参考訳（メタデータ） (2023-07-21T08:39:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。