論文の概要: Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of
Polyphonic Music
- arxiv url: http://arxiv.org/abs/2204.03307v1
- Date: Thu, 7 Apr 2022 09:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 16:04:41.528111
- Title: Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of
Polyphonic Music
- Title(参考訳): ポリフォニック音楽の自動歌詞書き起こしのためのゲンレ条件音響モデル
- Authors: Xiaoxue Gao, Chitralekha Gupta and Haizhou Li
- Abstract要約: 本稿では,新ジャンルネットワークを用いたポリフォニック音楽の歌詞の書き起こしを提案する。
提案するネットワークは,事前学習されたモデルパラメータを採用し,階層間のジャンルアダプタを組み込んで,歌詞とジャンルのペアのジャンルの特色を抽出する。
実験の結果,提案するジャンル条件付きネットワークは既存の歌詞の書き起こしシステムよりも優れていた。
- 参考スコア(独自算出の注目度): 73.73045854068384
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lyrics transcription of polyphonic music is challenging not only because the
singing vocals are corrupted by the background music, but also because the
background music and the singing style vary across music genres, such as pop,
metal, and hip hop, which affects lyrics intelligibility of the song in
different ways. In this work, we propose to transcribe the lyrics of polyphonic
music using a novel genre-conditioned network. The proposed network adopts
pre-trained model parameters, and incorporates the genre adapters between
layers to capture different genre peculiarities for lyrics-genre pairs, thereby
only requiring lightweight genre-specific parameters for training. Our
experiments show that the proposed genre-conditioned network outperforms the
existing lyrics transcription systems.
- Abstract(参考訳): ポリフォニー音楽の歌詞の書き起こしは、歌唱のボーカルが背景音楽によって腐敗しているだけでなく、背景音楽や歌唱スタイルがポップ、メタル、ヒップホップなどの音楽ジャンルによって異なるため、異なる方法で歌詞の理解に影響を及ぼすため、困難である。
本稿では,新しいジャンル条件付きネットワークを用いて多声楽曲の歌詞を書写する手法を提案する。
提案するネットワークは,事前学習されたモデルパラメータを採用し,各階層間のジャンルアダプタを組み込んで歌詞とジャンルのペアの異なるジャンルの特色を捉える。
提案するジャンル条件付きネットワークは,既存の歌詞書き起こしシステムよりも優れていることを示す。
関連論文リスト
- Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks [0.5524804393257919]
本稿では,長大な音楽制作におけるテキストからオーディオまでの音楽生成モデルの有用性について考察する。
Babel BardoはLarge Language Models(LLM)を用いて音声の書き起こしを音楽記述に変換するシステムで、テキストから音楽へのモデルを制御する。
論文 参考訳(メタデータ) (2024-11-06T14:29:49Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - Syllable-level lyrics generation from melody exploiting character-level
language model [14.851295355381712]
シンボリック・メロディから音節レベルの歌詞を生成するための微調整文字レベル言語モデルを提案する。
特に,言語モデルの言語知識を音節レベルのトランスフォーマー生成ネットワークのビームサーチプロセスに組み込む手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T02:53:29Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Music-to-Text Synaesthesia: Generating Descriptive Text from Music
Recordings [36.090928638883454]
音楽からテキストへの合成は、音楽録音から記述的なテキストを同じ感情で生成し、さらに理解することを目的としている。
音楽録音の内容を記述可能な文を生成するための計算モデルを構築した。
非差別的なクラシック音楽に対処するために,グループトポロジ保存損失を設計する。
論文 参考訳(メタデータ) (2022-10-02T06:06:55Z) - MuLan: A Joint Embedding of Music Audio and Natural Language [15.753767984842014]
本稿では,音声アノテーションを自然言語記述に直接リンクする新世代のモデルを提案する。
MuLanは、4400万曲の録音で訓練された、2towerのジョイントオーディオテキスト埋め込みモデルの形をしている。
論文 参考訳(メタデータ) (2022-08-26T03:13:21Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - Multilingual Music Genre Embeddings for Effective Cross-Lingual Music
Item Annotation [9.709229853995987]
言語間音楽ジャンルの翻訳は、並列コーパスに頼ることなく可能である。
多言語音楽ジャンルの埋め込みを学習することにより、並列コーパスに頼ることなく、多言語音楽ジャンルの翻訳を可能にする。
本手法は,複数の言語におけるタグシステム間の楽曲ジャンルの翻訳に有効である。
論文 参考訳(メタデータ) (2020-09-16T15:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。