論文の概要: Bridging Music and Text with Crowdsourced Music Comments: A
Sequence-to-Sequence Framework for Thematic Music Comments Generation
- arxiv url: http://arxiv.org/abs/2209.01996v1
- Date: Mon, 5 Sep 2022 14:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:47:49.789993
- Title: Bridging Music and Text with Crowdsourced Music Comments: A
Sequence-to-Sequence Framework for Thematic Music Comments Generation
- Title(参考訳): クラウドソース音楽コメントによる音楽とテキストのブリッジ:テーマ音楽コメント生成のためのシーケンス・ツー・シーケンス・フレームワーク
- Authors: Peining Zhang, Junliang Guo, Linli Xu, Mu You, Junming Yin
- Abstract要約: 我々はクラウドソースの音楽コメントを利用して新しいデータセットを構築し,音楽のテキスト記述を生成するシーケンス・ツー・シーケンス・モデルを提案する。
生成したテキストの信頼性とテーマ性を高めるために,識別器と新しい話題評価器を提案する。
- 参考スコア(独自算出の注目度): 18.2750732408488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a novel task of automatically generating text descriptions of
music. Compared with other well-established text generation tasks such as image
caption, the scarcity of well-paired music and text datasets makes it a much
more challenging task. In this paper, we exploit the crowd-sourced music
comments to construct a new dataset and propose a sequence-to-sequence model to
generate text descriptions of music. More concretely, we use the dilated
convolutional layer as the basic component of the encoder and a memory based
recurrent neural network as the decoder. To enhance the authenticity and
thematicity of generated texts, we further propose to fine-tune the model with
a discriminator as well as a novel topic evaluator. To measure the quality of
generated texts, we also propose two new evaluation metrics, which are more
aligned with human evaluation than traditional metrics such as BLEU.
Experimental results verify that our model is capable of generating fluent and
meaningful comments while containing thematic and content information of the
original music.
- Abstract(参考訳): 楽曲のテキスト記述を自動的に生成する新しい課題を考える。
画像キャプションのような、確立された他のテキスト生成タスクと比較すると、十分にペアリングされた音楽やテキストデータセットの不足は、より困難なタスクになります。
本稿では,クラウドソースの音楽コメントを利用して新しいデータセットを構築し,楽曲のテキスト記述を生成するシーケンシャル・ツー・シーケンスモデルを提案する。
より具体的には、拡張畳み込み層をエンコーダの基本成分とし、メモリベースのリカレントニューラルネットワークをデコーダとして使用する。
生成したテキストの真正性と主題性を高めるため、識別器と新しい話題評価器を用いてモデルを微調整することを提案する。
生成されたテキストの品質を測定するために、bleuのような従来の指標よりも人間による評価に合致する2つの新しい評価指標を提案する。
実験結果から,本モデルがオリジナル楽曲の主題や内容情報を含意しながら,流動的で意味のあるコメントを生成できることが確認された。
関連論文リスト
- Text Conditioned Symbolic Drumbeat Generation using Latent Diffusion Models [0.0]
本研究では,ラテント拡散モデル(LDM)を用いたドラムビート生成のためのテキスト条件付き手法を提案する。
マルチモーダルネットワーク内のコントラスト学習を通じてテキストとドラムのエンコーダを事前学習することにより,テキストと音楽のモダリティを密に調整する。
生成したドラムビートは新規で、即興のテキストに順応し、人間の音楽家によるものと同等の品質を示す。
論文 参考訳(メタデータ) (2024-08-05T13:23:05Z) - MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Detecting Synthetic Lyrics with Few-Shot Inference [5.448536338411993]
高品質な合成歌詞の最初のデータセットをキュレートした。
LLM2Vecをベースとした、最も優れた数発の検出器は、スタイリスティックおよび統計的手法を超越しています。
本研究は,創造的コンテンツ検出のさらなる研究の必要性を強調する。
論文 参考訳(メタデータ) (2024-06-21T15:19:21Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Music-to-Text Synaesthesia: Generating Descriptive Text from Music
Recordings [36.090928638883454]
音楽からテキストへの合成は、音楽録音から記述的なテキストを同じ感情で生成し、さらに理解することを目的としている。
音楽録音の内容を記述可能な文を生成するための計算モデルを構築した。
非差別的なクラシック音楽に対処するために,グループトポロジ保存損失を設計する。
論文 参考訳(メタデータ) (2022-10-02T06:06:55Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - SongNet: Rigid Formats Controlled Text Generation [51.428634666559724]
この問題に対処するために,SongNetというシンプルでエレガントなフレームワークを提案する。
フレームワークのバックボーンは、Transformerベースの自動回帰言語モデルである。
事前学習および微調整のフレームワークは、生成品質をさらに向上するために設計されている。
論文 参考訳(メタデータ) (2020-04-17T01:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。