論文の概要: Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation
- arxiv url: http://arxiv.org/abs/2605.01790v1
- Date: Sun, 03 May 2026 09:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.940868
- Title: Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation
- Title(参考訳): Khala:高忠実度音楽生成に向けた音響トークン言語モデルのスケーリング
- Authors: Jiafeng Liu, Yuanliang Dong, Hongjia Liu, Yuqing Cheng, Zhancheng Guo, Huijing Liang, Wenbo Zhan, Yuming Sun, Xiaobing Li, Feng Yu, Maosong Sun,
- Abstract要約: 高品質な音楽生成における一般的なデザインパターンは、異なる表現空間における構造と忠実さを扱うことである。
本研究では,1つの深層音響トケン階層内で,両者を段階的にモデル化する,という代替的な視点を探求する。
この結果から,構造や忠実さを不均一な表現空間に分割することなく,高品質な音楽生成を効果的に追求できることが示唆された。
- 参考スコア(独自算出の注目度): 31.997336001394284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common design pattern in high-quality music generation is to handle structure and fidelity in different representation spaces: a generator first models high-level structure, followed by diffusion-based or neural decoding stages that reconstruct fine details. In this work, we explore an alternative view: both may be progressively modeled within a single deep acoustic-token hierarchy. To study this, we build a 64-layer residual vector quantization (RVQ) acoustic representation and propose a two-stage coarse-to-fine generation framework. A backbone model first generates coarse acoustic tokens for the full track, and a super-resolution model then completes finer tokens within the same acoustic token space. The super-resolution stage works at full-track scale and refines tokens layer by layer while running in parallel over time, leading to a fixed 62-step inference process. To jointly improve lyric alignment and fine-detail reconstruction, we further introduce hybrid-attention training: the alignment objective uses causal attention, while layer-wise refinement uses full attention. A key finding is that text--vocal alignment can emerge within pure acoustic-token language modeling, without requiring a separate semantic token stage. Moreover, initializing the super-resolution model from the trained backbone significantly improves convergence and final quality. Taken together, our results suggest that high-quality music generation can be effectively pursued without separating structure and fidelity into heterogeneous representation spaces. Instead, both can be progressively modeled within a unified acoustic-token hierarchy, pointing toward a simpler and more unified path to high-quality music generation.
- Abstract(参考訳): 高品質な音楽生成における一般的な設計パターンは、異なる表現空間における構造と忠実さを扱うことである。
本研究では,1つの深層音響トケン階層内で,両者を段階的にモデル化する,という代替的な視点を探求する。
そこで本研究では,64層残差ベクトル量子化(RVQ)音響表現を構築し,その2段階の粗大な生成フレームワークを提案する。
バックボーンモデルはまず全トラックに対して粗い音響トークンを生成し、続いて超解像モデルが同じ音響トークン空間内でより微細なトークンを完成させる。
超高解像度のステージはフルトラックスケールで動作し、時間とともに並列に実行しながらトークン層を層ごとに洗練し、固定された62ステップの推論プロセスに繋がる。
ライリックアライメントと細部再構築を共同で改善するため,アライメント目的は因果アライメント,レイヤーワイドリファインメントはフルアライメントを導入し,ハイブリッドアテンショントレーニングも導入した。
鍵となる発見は、テキスト音声アライメントは、独立したセマンティックトークンステージを必要とせずに、純粋な音響トーケン言語モデリングの中に現れることである。
さらに、トレーニングされたバックボーンから超解像モデルを初期化することで、収束性と最終的な品質が大幅に向上する。
その結果、構造と忠実さを異種表現空間に分離することなく、高品質な音楽生成を効果的に追求できることが示唆された。
代わりに、両者は、よりシンプルでより統一された高品質の音楽生成経路を指して、統一された音響トーケン階層内で段階的にモデル化することができる。
関連論文リスト
- SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton [26.272034375469943]
SymphonyGenは、撮影オーケストレーションのための3D階層的なフレームワークである。
ビート量子化マルチボイスハーモニースケルトンを用いた「ショートスコア」コンディショニングを導入する。
我々は、意図しない音節衝突を抑制するために、不協和逆サンプリングアルゴリズムを実装した。
論文 参考訳(メタデータ) (2026-04-28T11:01:21Z) - The World is Not Mono: Enabling Spatial Understanding in Large Audio-Language Models [17.675850481660863]
聴覚場面分析(ASA)のための階層的枠組みを導入する。
本稿では,Qwen2-Audioのようなモデルを用いて,複雑な音響世界を理解し,推論するシステムを提案する。
我々の研究は、大規模モデルの強力な推論能力を総合音響シーン解析に活用するための明確な経路を提供する。
論文 参考訳(メタデータ) (2026-01-06T11:54:47Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。
我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。
本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-31T23:27:27Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Learning Interpretable Representation for Controllable Polyphonic Music
Generation [5.01266258109807]
我々は、ポリフォニック音楽の2つの解釈可能な潜在要素である和音とテクスチャを効果的に学習する新しいアーキテクチャを設計する。
このようなコード・テクスチャ・ディコンタングルメントは,広い範囲の応用につながる制御可能な生成経路を提供することを示す。
論文 参考訳(メタデータ) (2020-08-17T07:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。