Fugu-MT 論文翻訳(概要): Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation

論文の概要: Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation

arxiv url: http://arxiv.org/abs/2605.15831v1
Date: Fri, 15 May 2026 10:35:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-18 21:22:26.254615
Title: Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation
Title（参考訳）: 時間周波数画像としての音楽のモデリング:音楽生成のための2次元トケナイザ
Authors: Yuqing Cheng, Xingyu Ma, Guochen Yu, Xiaotao Gu,
Abstract要約: BandTokは世代指向の2D Mel-spectrogramトークンであり、単一のコードブックからメル周波数のバンドトークンで各フレームを表現する。実験により、BandTokは残余のコードブックトークンよりも改善され、データ制限設定で強い結果が得られることが示された。
参考スコア（独自算出の注目度）: 13.157808758544043
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive music generation depends strongly on the audio tokenizer. Existing high-fidelity codecs often use residual multi-codebook quantization, which preserves reconstruction quality but complicates language modeling after sequence flattening, as the residual hierarchy imposes strong sequential dependencies and can amplify error accumulation. We propose BandTok, a generation-oriented 2D Mel-spectrogram tokenizer that represents each frame with Mel-frequency band tokens from a single shared codebook. This design yields a physically interpretable time-frequency token grid with a more independent token structure, making it better suited for autoregressive modeling. BandTok improves reconstruction with a multi-scale PatchGAN objective and EMA codebook updates. We further introduce an autoregressive language model with 2D Rotary Position Embedding (2D RoPE) to preserve temporal and frequency-band structure during generation. Experiments show that BandTok improves over residual-codebook tokenizers and achieves strong results in a data-limited setting. The source code and generation demos for this work are publicly available.
Abstract（参考訳）: 自動回帰音楽生成は、オーディオトークン化器に強く依存する。既存の高忠実度コーデックでは、リコンストラクション品質を保ちながら、シーケンスフラット化後の言語モデリングを複雑化する残差マルチコードブック量子化を用いることが多い。 1つの共有コードブックからメル周波数帯トークンを用いて各フレームを表す世代指向の2次元メルスペクトルトークンであるBandTokを提案する。この設計により、より独立したトークン構造を持つ物理的に解釈可能な時間周波数トークングリッドが得られ、自動回帰モデリングに適している。 BandTokは、マルチスケールのPatchGAN目標とEMAコードブック更新で再構築を改善している。さらに,2次元ロータリー位置埋め込み (2D RoPE) を用いた自動回帰言語モデルを導入し,生成時の時間・周波数帯域構造を保存する。実験により、BandTokは残余のコードブックトークンよりも改善され、データ制限設定で強い結果が得られることが示された。この作業のソースコードと生成デモが公開されている。

論文の概要: Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation

関連論文リスト