Fugu-MT 論文翻訳(概要): VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation

論文の概要: VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation

arxiv url: http://arxiv.org/abs/2504.04060v1
Date: Sat, 05 Apr 2025 04:57:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-16 06:20:37.352452
Title: VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation
Title（参考訳）: VocalNet:高速かつ高品質な音声生成のためのマルチトークン予測付き音声LLM
Authors: Yuhao Wang, Heyang Liu, Ziyang Cheng, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang,
Abstract要約: 音声大言語モデル(LLM)は、音声処理に顕著な焦点をあてている。本稿では,VocalNet-1BとVocalNet-8Bを提案する。
参考スコア（独自算出の注目度）: 26.34810950257782
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech large language models (LLMs) have emerged as a prominent research focus in speech processing. We propose VocalNet-1B and VocalNet-8B, a series of high-performance, low-latency speech LLMs enabled by a scalable and model-agnostic training framework for real-time voice interaction. Departing from the conventional next-token prediction (NTP), we introduce multi-token prediction (MTP), a novel approach optimized for speech LLMs that simultaneously improves generation speed and quality. Experiments show that VocalNet outperforms mainstream Omni LLMs despite using significantly less training data, while also surpassing existing open-source speech LLMs by a substantial margin. To support reproducibility and community advancement, we will open-source all model weights, inference code, training data, and framework implementations upon publication.
Abstract（参考訳）: 音声大言語モデル(LLM)は、音声処理に顕著な焦点をあてている。本稿では,VocalNet-1BとVocalNet-8Bを提案する。従来のNext-token Prediction(NTP)とは別に、生成速度と品質を同時に向上する音声LLMに最適化された新しいアプローチであるMTP(Multi-token Prediction)を導入する。 VocalNetはトレーニングデータが少ないにもかかわらず、主流のOmni LLMよりも優れており、既存のオープンソースのLLMをかなり上回っている。再現性とコミュニティの発展をサポートするため、我々は、公開時にすべてのモデルウェイト、推論コード、トレーニングデータ、フレームワークの実装をオープンソース化します。

関連論文リスト

Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
TESU-LLM: Training Speech-LLMs Without Speech via Unified Encoder Alignment [15.899112804399193]
textbfTESU-LLMは,テキストデータのみを用いた音声対応言語モデルの学習を可能にする新しいフレームワークである。我々の重要な洞察は、意味論的に等価なテキストと音声入力を共有潜在空間にマッピングする統一エンコーダを活用することである。 TESU-LLMはテキストのみに訓練されているにもかかわらず、様々な音声関連ベンチマークで高い性能を達成している。
論文参考訳（メタデータ） (2025-06-01T09:27:55Z)
L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [69.1271366892683]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文参考訳（メタデータ） (2025-05-23T05:59:46Z)
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [70.25062476543091]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。 MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。 4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文参考訳（メタデータ） (2025-05-06T17:59:53Z)
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM [35.443850239910866]
本稿では、低レイテンシで高品質な音声を生成する軽量で自己回帰型ストリーミングTSシステムを提案する。提案手法は,音声対応LLMに比べて単語誤り率を著しく低くし,レイテンシとUTMOSスコアに匹敵する操作を行う。
論文参考訳（メタデータ） (2025-03-06T18:59:38Z)
Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文参考訳（メタデータ） (2024-12-24T17:37:11Z)
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文参考訳（メタデータ） (2024-12-13T12:59:39Z)
Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文参考訳（メタデータ） (2024-10-27T04:28:57Z)
VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-23T00:36:06Z)
Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。 SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文参考訳（メタデータ） (2024-01-24T15:25:01Z)
Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文参考訳（メタデータ） (2023-12-30T14:20:04Z)
Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文参考訳（メタデータ） (2023-12-21T05:32:49Z)
Speak While You Think: Streaming Speech Synthesis During Text Generation [13.964169328257233]
大きな言語モデル(LLM)は印象的な能力を示しているが、これらのモデルとの相互作用は主にテキストで容易にできる。 LLM2Speechは、LLMによってテキストが生成されている間に音声を合成するアーキテクチャであり、遅延の大幅な低減をもたらす。
論文参考訳（メタデータ） (2023-09-20T11:00:15Z)
SpeechGen: Unlocking the Generative Power of Speech Language Models with Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-03T22:35:27Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。