論文の概要: MERGE -- A Bimodal Dataset for Static Music Emotion Recognition
- arxiv url: http://arxiv.org/abs/2407.06060v1
- Date: Mon, 8 Jul 2024 16:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:01:12.997319
- Title: MERGE -- A Bimodal Dataset for Static Music Emotion Recognition
- Title(参考訳): MERGE - 静的音楽感情認識のためのバイモーダルデータセット
- Authors: Pedro Lima Louro, Hugo Redinho, Ricardo Santos, Ricardo Malheiro, Renato Panda, Rui Pedro Paiva,
- Abstract要約: 本稿では,半自動手法を用いて作成した3つの新しい音声・歌詞・バイモーダル音楽感情認識研究データセットであるMERGEを提案する。
得られた結果は、提案したデータセットの生存可能性を確認し、ディープニューラルネットワークを用いたバイモーダル分類において、79.21%のF1スコアを達成した。
- 参考スコア(独自算出の注目度): 0.5339846068056558
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Music Emotion Recognition (MER) field has seen steady developments in recent years, with contributions from feature engineering, machine learning, and deep learning. The landscape has also shifted from audio-centric systems to bimodal ensembles that combine audio and lyrics. However, a severe lack of public and sizeable bimodal databases has hampered the development and improvement of bimodal audio-lyrics systems. This article proposes three new audio, lyrics, and bimodal MER research datasets, collectively called MERGE, created using a semi-automatic approach. To comprehensively assess the proposed datasets and establish a baseline for benchmarking, we conducted several experiments for each modality, using feature engineering, machine learning, and deep learning methodologies. In addition, we propose and validate fixed train-validate-test splits. The obtained results confirm the viability of the proposed datasets, achieving the best overall result of 79.21% F1-score for bimodal classification using a deep neural network.
- Abstract(参考訳): 音楽感情認識(MER)分野は近年着実に発展しており、特徴工学、機械学習、ディープラーニングからの貢献がある。
ランドスケープは、オーディオ中心のシステムから、オーディオと歌詞を組み合わせたバイモーダルアンサンブルへとシフトした。
しかし,バイモーダル・オーディオ・ライリクス・システムの開発や改善は,公開データベースやサイズデータベースの欠如によって妨げられている。
本稿では,半自動手法を用いて作成した3つの新しい音声・歌詞・バイモーダルMER研究データセット(総称MERGE)を提案する。
提案したデータセットを網羅的に評価し,ベンチマークのベースラインを確立するために,特徴工学,機械学習,深層学習手法を用いて,各モードに対していくつかの実験を行った。
さらに, 固定列車価試験スプリットを提案し, 検証する。
得られた結果は、提案したデータセットの生存可能性を確認し、ディープニューラルネットワークを用いたバイモーダル分類において、79.21%のF1スコアを達成した。
関連論文リスト
- Audio-Guided Fusion Techniques for Multimodal Emotion Analysis [2.7013910991626213]
MER2024における半教師付き学習トラック(MER-SEMI)の解を提案する。
ラベル付きデータを用いてビデオとテキストの特徴抽出,特にCLIP-vit-largeとBaichuan-13Bを微調整した。
また,Audio-Guided Transformer (AGT) 融合機構を提案する。
論文 参考訳(メタデータ) (2024-09-08T07:28:27Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - Speech Emotion Recognition with Co-Attention based Multi-level Acoustic
Information [21.527784717450885]
音声感情認識は、人間の主観的感情を音声情報のみから理解することを目的としている。
マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:17:28Z) - Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。
特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。
本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文 参考訳(メタデータ) (2022-02-24T15:12:17Z) - A Study of Multimodal Person Verification Using Audio-Visual-Thermal
Data [4.149096351426994]
本研究では,音声・視覚・熱的モーダルを用いたマルチモーダル人物の検証手法について検討する。
我々は,最先端のディープラーニングアーキテクチャを用いて,一元的,二元的,三元的検証システムを実装した。
論文 参考訳(メタデータ) (2021-10-23T04:41:03Z) - Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。
さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文 参考訳(メタデータ) (2021-07-04T08:35:20Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。