論文の概要: Music-to-Text Synaesthesia: Generating Descriptive Text from Music
Recordings
- arxiv url: http://arxiv.org/abs/2210.00434v2
- Date: Mon, 8 May 2023 03:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 00:27:31.824332
- Title: Music-to-Text Synaesthesia: Generating Descriptive Text from Music
Recordings
- Title(参考訳): Music-to-Text Synathesia: 音楽録音から記述テキストを生成する
- Authors: Zhihuan Kuang, Shi Zong, Jianbing Zhang, Jiajun Chen, Hongfu Liu
- Abstract要約: 音楽からテキストへの合成は、音楽録音から記述的なテキストを同じ感情で生成し、さらに理解することを目的としている。
音楽録音の内容を記述可能な文を生成するための計算モデルを構築した。
非差別的なクラシック音楽に対処するために,グループトポロジ保存損失を設計する。
- 参考スコア(独自算出の注目度): 36.090928638883454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider a novel research problem: music-to-text
synaesthesia. Different from the classical music tagging problem that
classifies a music recording into pre-defined categories, music-to-text
synaesthesia aims to generate descriptive texts from music recordings with the
same sentiment for further understanding. As existing music-related datasets do
not contain the semantic descriptions on music recordings, we collect a new
dataset that contains 1,955 aligned pairs of classical music recordings and
text descriptions. Based on this, we build a computational model to generate
sentences that can describe the content of the music recording. To tackle the
highly non-discriminative classical music, we design a group
topology-preservation loss, which considers more samples as a group reference
and preserves the relative topology among different samples. Extensive
experimental results qualitatively and quantitatively demonstrate the
effectiveness of our proposed model over five heuristics or pre-trained
competitive methods and their variants on our collected dataset.
- Abstract(参考訳): 本稿では,音楽とテキストの共感覚という新しい研究課題について考察する。
music-to-text synaesthesiaは、音楽録音を予め定義されたカテゴリに分類する古典的な音楽タグ問題とは異なり、同じ感情を持つ音楽録音から記述テキストを生成することを目的としている。
既存の音楽関連データセットは、音楽記録に関する意味記述を含まないため、1,955組のクラシック音楽記録とテキスト記述を含む新しいデータセットを収集する。
そこで我々は,音楽録音の内容を記述可能な文を生成するための計算モデルを構築した。
非判別的クラシック音楽に取り組むため、より多くのサンプルをグループ参照とみなし、異なるサンプル間の相対トポロジーを保存するグループトポロジー保存損失を設計する。
5つのヒューリスティックまたは事前学習した競争法とその変種に対する提案モデルの有効性を定量的に定量的に検証した。
関連論文リスト
- Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。
本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:33:34Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Bridging Music and Text with Crowdsourced Music Comments: A
Sequence-to-Sequence Framework for Thematic Music Comments Generation [18.2750732408488]
我々はクラウドソースの音楽コメントを利用して新しいデータセットを構築し,音楽のテキスト記述を生成するシーケンス・ツー・シーケンス・モデルを提案する。
生成したテキストの信頼性とテーマ性を高めるために,識別器と新しい話題評価器を提案する。
論文 参考訳(メタデータ) (2022-09-05T14:51:51Z) - MuLan: A Joint Embedding of Music Audio and Natural Language [15.753767984842014]
本稿では,音声アノテーションを自然言語記述に直接リンクする新世代のモデルを提案する。
MuLanは、4400万曲の録音で訓練された、2towerのジョイントオーディオテキスト埋め込みモデルの形をしている。
論文 参考訳(メタデータ) (2022-08-26T03:13:21Z) - Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of
Polyphonic Music [73.73045854068384]
本稿では,新ジャンルネットワークを用いたポリフォニック音楽の歌詞の書き起こしを提案する。
提案するネットワークは,事前学習されたモデルパラメータを採用し,階層間のジャンルアダプタを組み込んで,歌詞とジャンルのペアのジャンルの特色を抽出する。
実験の結果,提案するジャンル条件付きネットワークは既存の歌詞の書き起こしシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-04-07T09:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。