論文の概要: Efficient Autoregressive Audio Modeling via Next-Scale Prediction
- arxiv url: http://arxiv.org/abs/2408.09027v2
- Date: Mon, 16 Dec 2024 21:50:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:54:25.825472
- Title: Efficient Autoregressive Audio Modeling via Next-Scale Prediction
- Title(参考訳): 次世代予測による自己回帰音声の効率的なモデリング
- Authors: Kai Qiu, Xiang Li, Hao Chen, Jie Sun, Jinglu Wang, Zhe Lin, Marios Savvides, Bhiksha Raj,
- Abstract要約: 我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。
SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
- 参考スコア(独自算出の注目度): 52.663934477127405
- License:
- Abstract: Audio generation has achieved remarkable progress with the advance of sophisticated generative models, such as diffusion models (DMs) and autoregressive (AR) models. However, due to the naturally significant sequence length of audio, the efficiency of audio generation remains an essential issue to be addressed, especially for AR models that are incorporated in large language models (LLMs). In this paper, we analyze the token length of audio tokenization and propose a novel \textbf{S}cale-level \textbf{A}udio \textbf{T}okenizer (SAT), with improved residual quantization. Based on SAT, a scale-level \textbf{A}coustic \textbf{A}uto\textbf{R}egressive (AAR) modeling framework is further proposed, which shifts the next-token AR prediction to next-scale AR prediction, significantly reducing the training cost and inference time. To validate the effectiveness of the proposed approach, we comprehensively analyze design choices and demonstrate the proposed AAR framework achieves a remarkable \textbf{35}$\times$ faster inference speed and +\textbf{1.33} Fr\'echet Audio Distance (FAD) against baselines on the AudioSet benchmark. Code: \url{https://github.com/qiuk2/AAR}.
- Abstract(参考訳): 音声生成は拡散モデル (DM) や自己回帰モデル (AR) といった高度な生成モデルの発展により、顕著な進歩を遂げた。
しかし、オーディオの自然な配列長のため、特に大規模言語モデル(LLM)に組み込まれたARモデルにおいて、オーディオ生成の効率性は、対処すべき重要な課題である。
本稿では,音声トークン化のトークン長を解析し,残留量子化を改善した新規な \textbf{S}cale-level \textbf{A}udio \textbf{T}okenizer (SAT) を提案する。
SAT をベースとしたスケールレベルの \textbf{A}coustic \textbf{A}uto\textbf{R}egressive (AAR) モデリングフレームワークも提案されている。
提案手法の有効性を検証するため,提案手法は設計選択を総合的に分析し,AARフレームワークがAudioSetベンチマークのベースラインに対して,高速な推論速度と+\textbf{1.33} Fr\echet Audio Distance(FAD)を実現することを実証する。
コード: \url{https://github.com/qiuk2/AAR}。
関連論文リスト
- Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - An Experimental Study: Assessing the Combined Framework of WavLM and
BEST-RQ for Text-to-Speech Synthesis [0.5076419064097734]
本稿では,TTS(text-to-speech)モデルに適した新しいモデルアーキテクチャを提案する。
我々は,事前訓練された自己教師付き学習(SSL)音声モデルであるWavLMと,BEST-RQベクトル量子化フレームワークを組み合わせた。
SUPERBベンチマークによるLibriSpeechデータセットの実験では、提案モデルの性能は著しく低下している。
論文 参考訳(メタデータ) (2023-12-08T23:59:25Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Bring the Noise: Introducing Noise Robustness to Pretrained Automatic
Speech Recognition [13.53738829631595]
本稿では,任意のエンコーダ・デコーダアーキテクチャに適用可能なデノナイズ機能を抽出する新しい手法を提案する。
我々はノイズ音声データベース(NSD)で事前プロセッサを訓練し、ノイズ入力から雑音化されたスペクトルを再構成する。
クリーンコーダは音声からノイズをフィルタリングすることができ、雑音条件下で下流モデルのワード誤り率(WER)を改善できることを示す。
論文 参考訳(メタデータ) (2023-09-05T11:34:21Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Hypothesis Stitcher for End-to-End Speaker-attributed ASR on Long-form
Multi-talker Recordings [42.17790794610591]
近年, 話者カウント, 音声認識, 話者識別を共同で行うために, 話者適応型自動音声認識(SA-ASR)モデルが提案されている。
このモデルは,未知の話者数からなる単音重複音声に対して,低話者分散単語誤り率(SA-WER)を達成した。
E2E SA-ASRモデルがトレーニング中のサンプルよりもはるかに長い記録に有効かどうかはまだ調査されていない。
論文 参考訳(メタデータ) (2021-01-06T03:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。