Fugu-MT 論文翻訳(概要): Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation

論文の概要: Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation

arxiv url: http://arxiv.org/abs/2410.20336v1
Date: Sun, 27 Oct 2024 04:28:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.931554
Title: Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation
Title（参考訳）: 大規模言語モデルで話す準備が整った: 音声生成のためのラテフュージョンアプローチ
Authors: Maohao Shen, Shun Zhang, Jilong Wu, Zhiping Xiu, Ehab AlBadawy, Yiting Lu, Mike Seltzer, Qing He,
Abstract要約: 大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
参考スコア（独自算出の注目度）: 14.746190461312036
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have revolutionized natural language processing (NLP) with impressive performance across various text-based tasks. However, the extension of text-dominant LLMs to with speech generation tasks remains under-explored. In this work, we introduce a text-to-speech (TTS) system powered by a fine-tuned Llama model, named TTS-Llama, that achieves state-of-the-art speech synthesis performance. Building on TTS-Llama, we further propose MoLE-Llama, a text-and-speech multimodal LLM developed through purely late-fusion parameter-efficient fine-tuning (PEFT) and a mixture-of-expert architecture. Extensive empirical results demonstrate MoLE-Llama's competitive performance on both text-only question-answering (QA) and TTS tasks, mitigating catastrophic forgetting issue in either modality. Finally, we further explore MoLE-Llama in text-in-speech-out QA tasks, demonstrating its great potential as a multimodal dialog system capable of speech generation.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした。しかし、音声生成タスクへのテキスト優位性 LLM の拡張については、未検討のままである。本研究では,TTS-Llamaと呼ばれる微調整Llamaモデルを用いた音声合成システムについて述べる。 TTS-Llama 上に構築した Mole-Llama は,テキストと音声によるマルチモーダル LLM で,純粋に遅延パラメータ効率の良い微細チューニング (PEFT) と混合エキスパートアーキテクチャにより開発された。 Mole-Llama はテキストのみの質問応答 (QA) と TTS の両タスクの競合性能を実証し, いずれのモードにおいても破滅的な忘れ込み問題を緩和した。最後に、テキスト・イン・音声によるQAタスクにおけるMoLE-Llamaをさらに探求し、音声生成が可能なマルチモーダル・ダイアログシステムとしての可能性を示す。

関連論文リスト

Enhancing Generalization of Speech Large Language Models with Multi-Task Behavior Imitation and Speech-Text Interleaving [36.246791887458194]
大規模言語モデル(LLM)はタスク間で顕著な一般化を示している。 LLMは通常、教師付き微調整を使用して、テキストベースのLLMと音声を一致させる。本稿では,音声テキストをインターリーブしたマルチタスクの「行動模倣」手法を提案する。
論文参考訳（メタデータ） (2025-05-24T11:09:13Z)
KIT's Offline Speech Translation and Instruction Following Submission for IWSLT 2025 [56.61209412965054]
本稿では、カールスルーエ工科大学のオフラインSTとインストラクションフォロー(IF)トラックへの提出について紹介する。文書レベルの文脈を持つLLMを用いて出力を融合した複数の自動音声認識システムを用いたパイプラインを提案する。 IFトラックでは,音声エンコーダとLLMを統合し,幅広い命令追従タスクを実行するエンド・ツー・エンド・モデルを開発した。
論文参考訳（メタデータ） (2025-05-19T12:21:29Z)
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
テキスト対応音声トークン化と埋め込み(TASTE)について紹介する。 TASTEは、音声トークンと対応するテキストの書き起こしをトークン化段階で整列させることにより、モダリティギャップに直接対処する手法である。我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
論文参考訳（メタデータ） (2025-04-09T17:14:33Z)
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM [35.443850239910866]
本稿では、低レイテンシで高品質な音声を生成する軽量で自己回帰型ストリーミングTSシステムを提案する。提案手法は,音声対応LLMに比べて単語誤り率を著しく低くし,レイテンシとUTMOSスコアに匹敵する操作を行う。
論文参考訳（メタデータ） (2025-03-06T18:59:38Z)
Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM [44.59026505152727]
本稿では, Freeze-Omni という, 音声文によるマルチモーダルLLMアーキテクチャを提案する。我々の主な貢献は、音声入力と出力のモダリティがテキストLLMに容易に接続できることである。さらに,マルチタスク学習による二重対話能力を実現する手法も設計した。
論文参考訳（メタデータ） (2024-11-01T17:59:51Z)
VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-23T00:36:06Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
BESTOW: Efficient and Streamable Speech Language Model with the Best of Two Worlds in GPT and T5 [25.644228338604815]
我々は,TwO Worlds の BESt 機能を高効率でマルチタスク能力の強い単一モデルに組み込むための BESTOW アーキテクチャを提案する。我々は,ストリーム可能なSpeechLLMを読み書きポリシ問題として再構成し,BESTOWアーキテクチャを用いてオフラインおよびストリーミング研究を統合する。
論文参考訳（メタデータ） (2024-06-28T14:40:03Z)
Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文参考訳（メタデータ） (2023-12-21T05:32:49Z)
AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文参考訳（メタデータ） (2023-11-12T06:56:14Z)
SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-03T22:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。