論文の概要: Interpreting Song Lyrics with an Audio-Informed Pre-trained Language
Model
- arxiv url: http://arxiv.org/abs/2208.11671v1
- Date: Wed, 24 Aug 2022 17:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:09:47.530503
- Title: Interpreting Song Lyrics with an Audio-Informed Pre-trained Language
Model
- Title(参考訳): 音声インフォームド事前学習言語モデルによる歌詞の解釈
- Authors: Yixiao Zhang, Junyan Jiang, Gus Xia, Simon Dixon
- Abstract要約: BART-fusionは歌詞や音楽音声から歌詞の解釈を生成する新しいモデルである。
我々は、音声表現を歌詞表現に組み込むために、モーダル・アテンション・モジュールを用いる。
付加的な音声情報によって、モデルが単語や音楽をよりよく理解できるようになることを示す。
- 参考スコア(独自算出の注目度): 12.19432397758502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lyric interpretations can help people understand songs and their lyrics
quickly, and can also make it easier to manage, retrieve and discover songs
efficiently from the growing mass of music archives. In this paper we propose
BART-fusion, a novel model for generating lyric interpretations from lyrics and
music audio that combines a large-scale pre-trained language model with an
audio encoder. We employ a cross-modal attention module to incorporate the
audio representation into the lyrics representation to help the pre-trained
language model understand the song from an audio perspective, while preserving
the language model's original generative performance. We also release the Song
Interpretation Dataset, a new large-scale dataset for training and evaluating
our model. Experimental results show that the additional audio information
helps our model to understand words and music better, and to generate precise
and fluent interpretations. An additional experiment on cross-modal music
retrieval shows that interpretations generated by BART-fusion can also help
people retrieve music more accurately than with the original BART.
- Abstract(参考訳): 歌詞解釈は、人々が楽曲や歌詞を素早く理解するのに役立ちますし、増大する音楽アーカイブから効率的に楽曲を管理し、検索し、発見するのも簡単です。
本稿では,大規模な事前学習言語モデルとオーディオエンコーダを組み合わせた歌詞と音楽音声から歌詞解釈を生成する新しいモデルであるBART-fusionを提案する。
我々は,音声表現を歌詞表現に組み込むために,モーダル・アテンション・モジュールを用いて,事前学習された言語モデルが,言語モデルのオリジナル生成性能を保ちながら,その歌を理解するのを助ける。
モデルのトレーニングと評価のための,新たな大規模データセットであるsong interpretation datasetもリリースしています。
実験結果から,付加的な音声情報により,単語や音楽の理解が向上し,正確な解釈が得られた。
クロスモーダルな音楽検索に関する別の実験では、BART融合によって生成された解釈が、オリジナルのBARTよりも正確な音楽の検索に役立つことが示されている。
関連論文リスト
- SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - SongComposer: A Large Language Model for Lyric and Melody Composition in
Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。
我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。
広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - The Song Describer Dataset: a Corpus of Audio Captions for
Music-and-Language Evaluation [18.984512029792235]
高品質オーディオ・キャプション・ペアのクラウドソーシング・コーパスであるSong Describer dataset (SDD)を紹介した。
データセットは、706曲の録音を人間の記述で記述した1.1kの自然言語で構成されている。
論文 参考訳(メタデータ) (2023-11-16T17:52:21Z) - Language-Guided Music Recommendation for Video via Prompt Analogies [35.48998901411509]
本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。
既存の音楽ビデオデータセットは、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述は欠落している。
論文 参考訳(メタデータ) (2023-06-15T17:58:01Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - The Contribution of Lyrics and Acoustics to Collaborative Understanding
of Mood [7.426508199697412]
データ駆動分析により歌詞と気分の関連性を検討した。
われわれのデータセットは100万曲近くで、Spotifyのストリーミングプラットフォーム上のユーザープレイリストから曲とムードのアソシエーションが生まれている。
我々は、トランスフォーマーに基づく最先端の自然言語処理モデルを利用して、歌詞と気分の関係を学習する。
論文 参考訳(メタデータ) (2022-05-31T19:58:41Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。