論文の概要: SongPrep: A Preprocessing Framework and End-to-end Model for Full-song Structure Parsing and Lyrics Transcription
- arxiv url: http://arxiv.org/abs/2509.17404v1
- Date: Mon, 22 Sep 2025 07:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.250052
- Title: SongPrep: A Preprocessing Framework and End-to-end Model for Full-song Structure Parsing and Lyrics Transcription
- Title(参考訳): SongPrep: 全曲構造解析と歌詞転写のための前処理フレームワークとエンドツーエンドモデル
- Authors: Wei Tan, Shun Lei, Huaicheng Zhang, Guangzheng Li, Yixuan Zhang, Hangting Chen, Jianwei Yu, Rongzhi Gu, Dong Yu,
- Abstract要約: SongPrepは、音楽データに特化した自動前処理パイプラインである。
SongPrepE2Eは、事前訓練された言語モデルに基づくエンドツーエンドの歌詞認識モデルである。
SongPrepE2Eは、曲全体のコンテキストと事前訓練された意味知識を活用することで、提案したSSLD-200データセット上で、低ダイアリゼーション誤り率(DER)とワード誤り率(WER)を達成する。
- 参考スコア(独自算出の注目度): 41.548693027937624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence Generated Content (AIGC) is currently a popular research area. Among its various branches, song generation has attracted growing interest. Despite the abundance of available songs, effective data preparation remains a significant challenge. Converting these songs into training-ready datasets typically requires extensive manual labeling, which is both time consuming and costly. To address this issue, we propose SongPrep, an automated preprocessing pipeline designed specifically for song data. This framework streamlines key processes such as source separation, structure analysis, and lyric recognition, producing structured data that can be directly used to train song generation models. Furthermore, we introduce SongPrepE2E, an end-to-end structured lyrics recognition model based on pretrained language models. Without the need for additional source separation, SongPrepE2E is able to analyze the structure and lyrics of entire songs and provide precise timestamps. By leveraging context from the whole song alongside pretrained semantic knowledge, SongPrepE2E achieves low Diarization Error Rate (DER) and Word Error Rate (WER) on the proposed SSLD-200 dataset. Downstream tasks demonstrate that training song generation models with the data output by SongPrepE2E enables the generated songs to closely resemble those produced by humans.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)は現在、人気のある研究分野である。
様々な分野において、歌の創出は関心を惹きつけている。
利用可能な曲が豊富にあるにもかかわらず、効果的なデータ準備は依然として大きな課題である。
これらの曲をトレーニング可能なデータセットに変換するには、通常、広範囲な手作業によるラベリングが必要となる。
この問題に対処するために,我々はSongPrepを提案する。SongPrepは,曲データに特化して設計された,自動前処理パイプラインである。
このフレームワークは、ソース分離、構造解析、歌詞認識といった重要なプロセスを合理化し、曲生成モデルのトレーニングに直接使用できる構造化データを生成する。
さらに,事前学習言語モデルに基づくエンドツーエンドの歌詞認識モデルであるSongPrepE2Eを紹介する。
追加のソース分離を必要としないため、SongPrepE2Eは全曲の構造と歌詞を分析し、正確なタイムスタンプを提供することができる。
SongPrepE2Eは、曲全体のコンテキストと事前訓練された意味知識を活用することで、提案したSSLD-200データセット上で、低ダイアリゼーション誤り率(DER)とワード誤り率(WER)を達成する。
ダウンストリームタスクは、SongPrepE2Eが出力するデータを使って曲生成モデルのトレーニングを行うことで、生成された曲が人間によって生成された曲とよく似ていることを示す。
関連論文リスト
- JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment [26.590667516155083]
拡散モデルとフローマッチングモデルは、自動テキスト・オーディオ生成に革命をもたらした。
近年のオープン・ソング・トゥ・ソング・モデルは、レクリエーション用の自動曲生成において受け入れられる標準となっている。
フローマッチングに基づくJAMは,曲生成における単語レベルのタイミングと持続時間制御を実現するための最初の試みである。
論文 参考訳(メタデータ) (2025-07-28T14:34:02Z) - SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - Optimizing the Songwriting Process: Genre-Based Lyric Generation Using Deep Learning Models [2.703659575788133]
本プロジェクトは,ディープラーニング技術を用いて,従来の曲の書き起こしプロセスを簡素化することを目的としている。
我々は、歌詞を個々の詩にパースするためにトークンを用いた独自の前処理フォーマットを開発した。
その結果, ベースラインモデルでは高いリコール(ROUGE)が得られたが, どちらのモデルにも類似の精度(BLEU)が得られた。
論文 参考訳(メタデータ) (2024-09-15T21:32:46Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - OPAL: Ontology-Aware Pretrained Language Model for End-to-End
Task-Oriented Dialogue [40.62090743056549]
本稿では、エンドツーエンドタスク指向対話(TOD)のためのオントロジー対応事前学習言語モデル(OPAL)を提案する。
チャット型対話モデルとは異なり、タスク指向対話モデルは少なくとも2つのタスク固有モジュールを満たす:対話状態トラッカー(DST)と応答生成器(RG)。
論文 参考訳(メタデータ) (2022-09-10T04:38:27Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。