Fugu-MT 論文翻訳(概要): Music-to-Text Synaesthesia: Generating Descriptive Text from Music Recordings

論文の概要: Music-to-Text Synaesthesia: Generating Descriptive Text from Music Recordings

arxiv url: http://arxiv.org/abs/2210.00434v1
Date: Sun, 2 Oct 2022 06:06:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 14:05:34.466904
Title: Music-to-Text Synaesthesia: Generating Descriptive Text from Music Recordings
Title（参考訳）: Music-to-Text Synathesia: 音楽録音から記述テキストを生成する
Authors: Zhihuan Kuang, Shi Zong, Jianbing Zhang, Jiajun Chen, Hongfu Liu
Abstract要約: 音楽からテキストへの合成は、音楽録音から記述的なテキストを生成し、さらに理解することを目的としている。既存の音楽関連データセットには、音楽録音に関する意味記述は含まれていない。音楽録音の内容を記述可能な文を生成するための計算モデルを構築した。
参考スコア（独自算出の注目度）: 36.090928638883454
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we consider a novel research problem, music-to-text synaesthesia. Different from the classical music tagging problem that classifies a music recording into pre-defined categories, the music-to-text synaesthesia aims to generate descriptive texts from music recordings for further understanding. Although this is a new and interesting application to the machine learning community, to our best knowledge, the existing music-related datasets do not contain the semantic descriptions on music recordings and cannot serve the music-to-text synaesthesia task. In light of this, we collect a new dataset that contains 1,955 aligned pairs of classical music recordings and text descriptions. Based on this, we build a computational model to generate sentences that can describe the content of the music recording. To tackle the highly non-discriminative classical music, we design a group topology-preservation loss in our computational model, which considers more samples as a group reference and preserves the relative topology among different samples. Extensive experimental results qualitatively and quantitatively demonstrate the effectiveness of our proposed model over five heuristics or pre-trained competitive methods and their variants on our collected dataset.
Abstract（参考訳）: 本稿では,音楽とテキストの共感覚という新しい研究課題について考察する。 music-to-text synaesthesiaは、音楽録音を予め定義されたカテゴリに分類する古典的な音楽タグ問題とは異なり、音楽録音から記述テキストを生成することを目的としている。これは、機械学習コミュニティに新しくて興味深い応用であるが、私たちの知る限り、既存の音楽関連データセットは、音楽録音のセマンティック記述を含まないため、音楽とテキストの合成に役立てることができない。これを踏まえて、1,955組のクラシック音楽記録とテキスト記述を含む新しいデータセットを収集する。そこで我々は,音楽録音の内容を記述可能な文を生成するための計算モデルを構築した。非判別的クラシック音楽に取り組むために,より多くのサンプルをグループ参照とみなし,異なるサンプル間の相対トポロジを保存した計算モデルにおいて,グループトポロジ保存損失をデザインする。 5つのヒューリスティックまたは事前学習した競争法とその変種に対する提案モデルの有効性を定量的に定量的に検証した。

関連論文リスト

Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文参考訳（メタデータ） (2024-10-04T09:33:34Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文参考訳（メタデータ） (2023-02-09T06:27:09Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文参考訳（メタデータ） (2022-11-21T14:15:43Z)
Bridging Music and Text with Crowdsourced Music Comments: A Sequence-to-Sequence Framework for Thematic Music Comments Generation [18.2750732408488]
我々はクラウドソースの音楽コメントを利用して新しいデータセットを構築し,音楽のテキスト記述を生成するシーケンス・ツー・シーケンス・モデルを提案する。生成したテキストの信頼性とテーマ性を高めるために,識別器と新しい話題評価器を提案する。
論文参考訳（メタデータ） (2022-09-05T14:51:51Z)
MuLan: A Joint Embedding of Music Audio and Natural Language [15.753767984842014]
本稿では,音声アノテーションを自然言語記述に直接リンクする新世代のモデルを提案する。 MuLanは、4400万曲の録音で訓練された、2towerのジョイントオーディオテキスト埋め込みモデルの形をしている。
論文参考訳（メタデータ） (2022-08-26T03:13:21Z)
Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of Polyphonic Music [73.73045854068384]
本稿では,新ジャンルネットワークを用いたポリフォニック音楽の歌詞の書き起こしを提案する。提案するネットワークは,事前学習されたモデルパラメータを採用し,階層間のジャンルアダプタを組み込んで,歌詞とジャンルのペアのジャンルの特色を抽出する。実験の結果,提案するジャンル条件付きネットワークは既存の歌詞の書き起こしシステムよりも優れていた。
論文参考訳（メタデータ） (2022-04-07T09:15:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。