論文の概要: Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation
- arxiv url: http://arxiv.org/abs/2605.15831v1
- Date: Fri, 15 May 2026 10:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.254615
- Title: Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation
- Title(参考訳): 時間周波数画像としての音楽のモデリング:音楽生成のための2次元トケナイザ
- Authors: Yuqing Cheng, Xingyu Ma, Guochen Yu, Xiaotao Gu,
- Abstract要約: BandTokは世代指向の2D Mel-spectrogramトークンであり、単一のコードブックからメル周波数のバンドトークンで各フレームを表現する。
実験により、BandTokは残余のコードブックトークンよりも改善され、データ制限設定で強い結果が得られることが示された。
- 参考スコア(独自算出の注目度): 13.157808758544043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive music generation depends strongly on the audio tokenizer. Existing high-fidelity codecs often use residual multi-codebook quantization, which preserves reconstruction quality but complicates language modeling after sequence flattening, as the residual hierarchy imposes strong sequential dependencies and can amplify error accumulation. We propose BandTok, a generation-oriented 2D Mel-spectrogram tokenizer that represents each frame with Mel-frequency band tokens from a single shared codebook. This design yields a physically interpretable time-frequency token grid with a more independent token structure, making it better suited for autoregressive modeling. BandTok improves reconstruction with a multi-scale PatchGAN objective and EMA codebook updates. We further introduce an autoregressive language model with 2D Rotary Position Embedding (2D RoPE) to preserve temporal and frequency-band structure during generation. Experiments show that BandTok improves over residual-codebook tokenizers and achieves strong results in a data-limited setting. The source code and generation demos for this work are publicly available.
- Abstract(参考訳): 自動回帰音楽生成は、オーディオトークン化器に強く依存する。
既存の高忠実度コーデックでは、リコンストラクション品質を保ちながら、シーケンスフラット化後の言語モデリングを複雑化する残差マルチコードブック量子化を用いることが多い。
1つの共有コードブックからメル周波数帯トークンを用いて各フレームを表す世代指向の2次元メルスペクトルトークンであるBandTokを提案する。
この設計により、より独立したトークン構造を持つ物理的に解釈可能な時間周波数トークングリッドが得られ、自動回帰モデリングに適している。
BandTokは、マルチスケールのPatchGAN目標とEMAコードブック更新で再構築を改善している。
さらに,2次元ロータリー位置埋め込み (2D RoPE) を用いた自動回帰言語モデルを導入し,生成時の時間・周波数帯域構造を保存する。
実験により、BandTokは残余のコードブックトークンよりも改善され、データ制限設定で強い結果が得られることが示された。
この作業のソースコードと生成デモが公開されている。
関連論文リスト
- DUO-TOK: Dual-Track Semantic Music Tokenizer for Vocal-Accompaniment Generation [3.5346639529821435]
Duo-Tokは、音声伴奏音楽のためのソース対応のデュアルコードブックトークンである。
現代歌詞合成システムにおける再構築品質と言語モデル(LM)学習性の間の緊張の高まりを目標としている。
論文 参考訳(メタデータ) (2025-11-25T11:53:57Z) - Next Tokens Denoising for Speech Synthesis [51.320443764269726]
Dragon-FMは、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計である。
毎秒12.5トークンのコンパクトレートで48kHzのオーディオトークンをチャンクで処理する。
ポッドキャストデータセットの実験では、高品質なゼロショットポッドキャストを効率的に生成できることが示されている。
論文 参考訳(メタデータ) (2025-07-30T15:03:36Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - An Independence-promoting Loss for Music Generation with Language Models [64.95095558672996]
音楽生成方式は音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。
本稿では,音楽生成のための言語モデルにおけるトークン化器として使用されるオートエンコーダを正規化するために,独立性向上の損失を導入する。
論文 参考訳(メタデータ) (2024-06-04T13:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。