論文の概要: DUO-TOK: Dual-Track Semantic Music Tokenizer for Vocal-Accompaniment Generation
- arxiv url: http://arxiv.org/abs/2511.20224v1
- Date: Tue, 25 Nov 2025 11:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.437133
- Title: DUO-TOK: Dual-Track Semantic Music Tokenizer for Vocal-Accompaniment Generation
- Title(参考訳): DUO-TOK:音声伴奏生成のためのデュアルトラック・セマンティック・ミュージック・トケナイザ
- Authors: Rui Lin, Zhiyue Wu, Jiahe Le, Kangdi Wang, Weixiong Chen, Junyu Dai, Tao Jiang,
- Abstract要約: Duo-Tokは、音声伴奏音楽のためのソース対応のデュアルコードブックトークンである。
現代歌詞合成システムにおける再構築品質と言語モデル(LM)学習性の間の緊張の高まりを目標としている。
- 参考スコア(独自算出の注目度): 3.5346639529821435
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Duo-Tok is a source-aware dual-codebook tokenizer for vocal-accompaniment music that targets the growing tension between reconstruction quality and language-model (LM) learnability in modern lyrics-to-song systems. Existing codecs either prioritize high-fidelity reconstruction with difficult-to-model acoustic tokens or compress aggressively into semantic tokens that are LM-friendly but lossy, and they rarely make the tokenizer itself aware of dual-track structure. Duo-Tok follows a four-stage, SSL-centered pipeline: we first pretrain a BEST-RQ-style encoder on large-scale audio, then stabilize and factorize the representation with Gaussian replacement noise and multi-task supervision, before freezing the encoder to learn SimVQ-based dual codebooks with hard routing for vocals and accompaniment, and finally training latent diffusion decoders on top of the discrete tokens. Duo-Tok at 0.75 kbps shifts the empirical reconstruction-generation Pareto frontier, achieving the best music-tagging AP and the lowest vocabulary-normalized LM perplexity among compared codecs while maintaining reconstruction quality comparable to state-of-the-art music tokenizers.
- Abstract(参考訳): Duo-Tok(デュオ・トック)は、現代歌詞と歌唱システムにおける復調品質と言語モデル(LM)学習性の間の緊張の高まりをターゲットとした、声楽伴奏音楽のためのソース対応のデュアルコードブックトークンである。
既存のコーデックは、難解な音響トークンによる高忠実度再構成を優先するか、LMに親しみやすいが損失があるセマンティックトークンに積極的に圧縮する。
最初に大規模なオーディオでBEST-RQスタイルのエンコーダを事前訓練し、ガウス代替ノイズとマルチタスクによる表現を安定化および分解した後、エンコーダを凍結して、ボーカルと伴奏のためのハードルーティングを備えたSimVQベースのデュアルコードブックを学習し、最終的に離散トークンの上に潜時拡散デコーダをトレーニングする。
0.75kbpsのDuo-Tokは、経験的再生世代であるParetoフロンティアをシフトさせ、比較コーデックの中で最高の音楽タグAPと最低の語彙正規化LMパープレキシティを達成し、最先端の音楽トークンと同等の再生品質を維持しながら達成する。
関連論文リスト
- Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates [1.445167946386569]
我々は,Finite Scalar Quantization (FSQ) が,ノイズチャネルを介して伝送されるときにロバストな符号化を生成する,焼き込み冗長性を符号化していることを示す。
ノイズチャネルによるコードシーケンスの伝送をシミュレートする際の RVQ と FSQ コーデックの性能を比較することにより,FSQ のビットレベルの摂動が極めて優れていることを示す。
論文 参考訳(メタデータ) (2025-09-11T15:39:59Z) - LeVo: High-Quality Song Generation with Multi-Preference Alignment [47.965028296133426]
我々はLeLMとMusic Codecで構成される言語モデルベースのフレームワークであるLeVoを紹介する。
LeVoは2種類のトークンを並列にモデリングすることができる。
2つのデコーダのみのトランスフォーマーと、異なるトークンタイプ間の干渉を防ぐためのモジュール拡張トレーニング戦略を採用している。
論文 参考訳(メタデータ) (2025-06-09T07:57:24Z) - FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [81.3306413498174]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。
既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。
ダビングのための大規模言語モデル(LLM)に基づくフローマッチングアーキテクチャであるFlowDubberを提案する。
論文 参考訳(メタデータ) (2025-05-02T13:30:19Z) - Music2Latent2: Audio Compression with Summary Embeddings and Autoregressive Decoding [0.0]
音声信号を要約埋め込みの集合に圧縮する新しいオーディオオートエンコーダであるMusic2Latent2を紹介する。
ローカルオーディオ機能を順序付きシーケンスにエンコードする従来の方法とは異なり、Music2Latent2は音声信号を要約埋め込みのセットに圧縮する。
任意のオーディオ長を扱うために、Music2Latent2では、因果マスキングを備えた2つの連続したオーディオチャンクでトレーニングされた自動回帰一貫性モデルを採用している。
論文 参考訳(メタデータ) (2025-01-29T11:34:19Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [63.8735398698683]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Music2Latent: Consistency Autoencoders for Latent Audio Compression [0.0]
一貫性モデルを活用することで制限を克服するオーディオオートエンコーダであるMusic2Latentを紹介する。
Music2Latentは、単一エンドツーエンドのトレーニングプロセスにおいて、サンプルを圧縮された連続潜伏空間にエンコードする。
Music2Latentは、音質と再現精度において、既存の連続オーディオオートエンコーダよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-12T21:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。