論文の概要: Music-to-Text Synaesthesia: Generating Descriptive Text from Music
Recordings
- arxiv url: http://arxiv.org/abs/2210.00434v1
- Date: Sun, 2 Oct 2022 06:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:05:34.466904
- Title: Music-to-Text Synaesthesia: Generating Descriptive Text from Music
Recordings
- Title(参考訳): Music-to-Text Synathesia: 音楽録音から記述テキストを生成する
- Authors: Zhihuan Kuang, Shi Zong, Jianbing Zhang, Jiajun Chen, Hongfu Liu
- Abstract要約: 音楽からテキストへの合成は、音楽録音から記述的なテキストを生成し、さらに理解することを目的としている。
既存の音楽関連データセットには、音楽録音に関する意味記述は含まれていない。
音楽録音の内容を記述可能な文を生成するための計算モデルを構築した。
- 参考スコア(独自算出の注目度): 36.090928638883454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider a novel research problem, music-to-text
synaesthesia. Different from the classical music tagging problem that
classifies a music recording into pre-defined categories, the music-to-text
synaesthesia aims to generate descriptive texts from music recordings for
further understanding. Although this is a new and interesting application to
the machine learning community, to our best knowledge, the existing
music-related datasets do not contain the semantic descriptions on music
recordings and cannot serve the music-to-text synaesthesia task. In light of
this, we collect a new dataset that contains 1,955 aligned pairs of classical
music recordings and text descriptions. Based on this, we build a computational
model to generate sentences that can describe the content of the music
recording. To tackle the highly non-discriminative classical music, we design a
group topology-preservation loss in our computational model, which considers
more samples as a group reference and preserves the relative topology among
different samples. Extensive experimental results qualitatively and
quantitatively demonstrate the effectiveness of our proposed model over five
heuristics or pre-trained competitive methods and their variants on our
collected dataset.
- Abstract(参考訳): 本稿では,音楽とテキストの共感覚という新しい研究課題について考察する。
music-to-text synaesthesiaは、音楽録音を予め定義されたカテゴリに分類する古典的な音楽タグ問題とは異なり、音楽録音から記述テキストを生成することを目的としている。
これは、機械学習コミュニティに新しくて興味深い応用であるが、私たちの知る限り、既存の音楽関連データセットは、音楽録音のセマンティック記述を含まないため、音楽とテキストの合成に役立てることができない。
これを踏まえて、1,955組のクラシック音楽記録とテキスト記述を含む新しいデータセットを収集する。
そこで我々は,音楽録音の内容を記述可能な文を生成するための計算モデルを構築した。
非判別的クラシック音楽に取り組むために,より多くのサンプルをグループ参照とみなし,異なるサンプル間の相対トポロジを保存した計算モデルにおいて,グループトポロジ保存損失をデザインする。
5つのヒューリスティックまたは事前学習した競争法とその変種に対する提案モデルの有効性を定量的に定量的に検証した。
関連論文リスト
- Language-Guided Music Recommendation for Video via Prompt Analogies [35.48998901411509]
本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。
既存の音楽ビデオデータセットは、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述は欠落している。
論文 参考訳(メタデータ) (2023-06-15T17:58:01Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Bridging Music and Text with Crowdsourced Music Comments: A
Sequence-to-Sequence Framework for Thematic Music Comments Generation [18.2750732408488]
我々はクラウドソースの音楽コメントを利用して新しいデータセットを構築し,音楽のテキスト記述を生成するシーケンス・ツー・シーケンス・モデルを提案する。
生成したテキストの信頼性とテーマ性を高めるために,識別器と新しい話題評価器を提案する。
論文 参考訳(メタデータ) (2022-09-05T14:51:51Z) - MuLan: A Joint Embedding of Music Audio and Natural Language [15.753767984842014]
本稿では,音声アノテーションを自然言語記述に直接リンクする新世代のモデルを提案する。
MuLanは、4400万曲の録音で訓練された、2towerのジョイントオーディオテキスト埋め込みモデルの形をしている。
論文 参考訳(メタデータ) (2022-08-26T03:13:21Z) - The Contribution of Lyrics and Acoustics to Collaborative Understanding
of Mood [7.426508199697412]
データ駆動分析により歌詞と気分の関連性を検討した。
われわれのデータセットは100万曲近くで、Spotifyのストリーミングプラットフォーム上のユーザープレイリストから曲とムードのアソシエーションが生まれている。
我々は、トランスフォーマーに基づく最先端の自然言語処理モデルを利用して、歌詞と気分の関係を学習する。
論文 参考訳(メタデータ) (2022-05-31T19:58:41Z) - Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of
Polyphonic Music [73.73045854068384]
本稿では,新ジャンルネットワークを用いたポリフォニック音楽の歌詞の書き起こしを提案する。
提案するネットワークは,事前学習されたモデルパラメータを採用し,階層間のジャンルアダプタを組み込んで,歌詞とジャンルのペアのジャンルの特色を抽出する。
実験の結果,提案するジャンル条件付きネットワークは既存の歌詞の書き起こしシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-04-07T09:15:46Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。