論文の概要: The Song Describer Dataset: a Corpus of Audio Captions for
Music-and-Language Evaluation
- arxiv url: http://arxiv.org/abs/2311.10057v3
- Date: Wed, 22 Nov 2023 21:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 02:13:43.265656
- Title: The Song Describer Dataset: a Corpus of Audio Captions for
Music-and-Language Evaluation
- Title(参考訳): song descriptionrデータセット:音楽・言語評価のための音声キャプションのコーパス
- Authors: Ilaria Manco, Benno Weck, SeungHeon Doh, Minz Won, Yixiao Zhang,
Dmitry Bogdanov, Yusong Wu, Ke Chen, Philip Tovstogan, Emmanouil Benetos,
Elio Quinton, Gy\"orgy Fazekas, Juhan Nam
- Abstract要約: 高品質オーディオ・キャプション・ペアのクラウドソーシング・コーパスであるSong Describer dataset (SDD)を紹介した。
データセットは、706曲の録音を人間の記述で記述した1.1kの自然言語で構成されている。
- 参考スコア(独自算出の注目度): 18.984512029792235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Song Describer dataset (SDD), a new crowdsourced corpus of
high-quality audio-caption pairs, designed for the evaluation of
music-and-language models. The dataset consists of 1.1k human-written natural
language descriptions of 706 music recordings, all publicly accessible and
released under Creative Common licenses. To showcase the use of our dataset, we
benchmark popular models on three key music-and-language tasks (music
captioning, text-to-music generation and music-language retrieval). Our
experiments highlight the importance of cross-dataset evaluation and offer
insights into how researchers can use SDD to gain a broader understanding of
model performance.
- Abstract(参考訳): 楽曲と言語モデルの評価のために設計された,高品質なオーディオキャプチャペアのクラウドソースコーパスであるsong descriptionr dataset(sdd)を紹介する。
データセットは1.1kの人間による706曲の自然言語記述で構成され、全てクリエイティブ・コモン・ライセンスの下で公開されている。
データセットの使用例を示すために,3つの主要な音楽・言語タスク(音楽キャプション,テキスト・ツー・ミュージック生成,音楽言語検索)について,人気のあるモデルをベンチマークする。
実験では, クロスデータセット評価の重要性を強調し, SDDを用いたモデル性能の理解を深める方法について考察した。
関連論文リスト
- A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for
Music Captioning and Query Response [44.58063693945076]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by
Whispering to ChatGPT [70.75170078517284]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Language-Guided Music Recommendation for Video via Prompt Analogies [35.48998901411509]
本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。
既存の音楽ビデオデータセットは、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述は欠落している。
論文 参考訳(メタデータ) (2023-06-15T17:58:01Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Interpreting Song Lyrics with an Audio-Informed Pre-trained Language
Model [12.19432397758502]
BART-fusionは歌詞や音楽音声から歌詞の解釈を生成する新しいモデルである。
我々は、音声表現を歌詞表現に組み込むために、モーダル・アテンション・モジュールを用いる。
付加的な音声情報によって、モデルが単語や音楽をよりよく理解できるようになることを示す。
論文 参考訳(メタデータ) (2022-08-24T17:07:37Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。