論文の概要: Generative Audio Language Modeling with Continuous-valued Tokens and Masked Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2507.09834v1
- Date: Mon, 14 Jul 2025 00:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.071078
- Title: Generative Audio Language Modeling with Continuous-valued Tokens and Masked Next-Token Prediction
- Title(参考訳): 連続値トークンとマスケ次トーケン予測を用いた生成音声言語モデリング
- Authors: Shu-wen Yang, Byeonggeun Kim, Kuan-Po Huang, Qingming Tang, Huy Phan, Bo-Ru Lu, Harsha Sundar, Shalini Ghosh, Hung-yi Lee, Chieh-Chi Kao, Chao Wang,
- Abstract要約: 離散トークンを使わずに因果言語モデル(LM)を用いた音声生成について検討する。
トークンの拡散を利用して、次の連続値トークンの連続分布をモデル化する。
本稿では,マスク付き予測を因果的LMフレームワークに組み込んだ,マスク付き次世代予測タスクを提案する。
- 参考スコア(独自算出の注目度): 63.26850431270348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive next-token prediction with the Transformer decoder has become a de facto standard in large language models (LLMs), achieving remarkable success in Natural Language Processing (NLP) at scale. Extending this paradigm to audio poses unique challenges due to its inherently continuous nature. We research audio generation with a causal language model (LM) without discrete tokens. We leverage token-wise diffusion to model the continuous distribution of the next continuous-valued token. Our approach delivers significant improvements over previous discrete solution, AudioGen, achieving 20% and 40% relative gains on AudioCaps in Frechet Audio Distance (FAD) and Kullback-Leibler (KL) divergence, respectively. Additionally, we propose a novel masked next-token prediction task that incorporates masked prediction into the causal LM framework. On AudioCaps, the innovation yields 41% and 33% relative FAD improvements over AudioGen Base (285M) and AudioGen Large (1B) models, respectively, and is on par with the state-of-the-art (SOTA) diffusion models. Furthermore, we achieve these results with significantly fewer parameters -- 193M for our Base and 462M for our Large models.
- Abstract(参考訳): Transformerデコーダによる自動回帰的次トーケン予測は、大規模言語モデル(LLM)において事実上の標準となり、大規模に自然言語処理(NLP)を成功させた。
このパラダイムをオーディオに拡張することは、本質的に連続的な性質のため、ユニークな課題をもたらす。
離散トークンを使わずに因果言語モデル(LM)を用いた音声生成について検討する。
トークンの拡散を利用して、次の連続値トークンの連続分布をモデル化する。
提案手法は,AudioCaps in Frechet Audio Distance (FAD) とKullback-Leibler (KL) の相違により,AudioCaps in Frechet Audio Distance (FAD) の20%と40%の相対的なゲインを達成した。
さらに,マスク付き予測を因果的LMフレームワークに組み込んだ,マスク付き次世代予測タスクを提案する。
AudioCapsでは、AudioGen Base (285M) とAudioGen Large (1B) モデルに対して、41%と33%の相対的なFAD改善が得られ、最先端(SOTA)拡散モデルと同等である。
さらに、これらの結果はかなり少ないパラメータで達成し、ベースは193M、大モデルは462Mです。
関連論文リスト
- Next Tokens Denoising for Speech Synthesis [51.320443764269726]
Dragon-FMは、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計である。
毎秒12.5トークンのコンパクトレートで48kHzのオーディオトークンをチャンクで処理する。
ポッドキャストデータセットの実験では、高品質なゼロショットポッドキャストを効率的に生成できることが示されている。
論文 参考訳(メタデータ) (2025-07-30T15:03:36Z) - Token-based Audio Inpainting via Discrete Diffusion [14.23046540809056]
本稿では,トークン化音声表現を演算する離散拡散モデルに基づく新しい塗装手法を提案する。
提案手法は離散潜在空間において生成過程を直接モデル化し,音声の安定的,意味的コヒーレントな再構築を可能にする。
論文 参考訳(メタデータ) (2025-07-11T06:25:49Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Efficient Autoregressive Audio Modeling via Next-Scale Prediction [52.663934477127405]
我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。
SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
論文 参考訳(メタデータ) (2024-08-16T21:48:53Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - Masked Audio Generation using a Single Non-Autoregressive Transformer [90.11646612273965]
MAGNeTは、複数のオーディオトークンストリーム上で直接動作するマスク付き生成シーケンスモデリング手法である。
テキスト・トゥ・ミュージック・アンド・テキスト・トゥ・オーディオ・ジェネレーションのタスクにおけるMAGNeTの有効性を実証する。
我々は、自己回帰と非自己回帰モデリングのトレードオフを指摘するとともに、MAGNeTを構成する各コンポーネントの重要性を強調した。
論文 参考訳(メタデータ) (2024-01-09T14:29:39Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Audio-visual speech enhancement with a deep Kalman filter generative
model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。
テスト時に音声信号を推定する効率的な推論手法を開発した。
論文 参考訳(メタデータ) (2022-11-02T09:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。