論文の概要: Semi-Supervised Self-Learning Enhanced Music Emotion Recognition
- arxiv url: http://arxiv.org/abs/2410.21897v1
- Date: Tue, 29 Oct 2024 09:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:13.572240
- Title: Semi-Supervised Self-Learning Enhanced Music Emotion Recognition
- Title(参考訳): 半教師付き自己学習型音楽感情認識
- Authors: Yifu Sun, Xulong Zhang, Monan Zhou, Wei Li,
- Abstract要約: 音楽感情認識(MER)は、ある楽曲で伝達される感情を特定することを目的としている。
現在利用可能な公開データセットは、サンプルサイズが制限されている。
本稿では,正誤ラベル付きサンプルを自己学習方式で識別する半教師付き自己学習法を提案する。
- 参考スコア(独自算出の注目度): 6.315220462630698
- License:
- Abstract: Music emotion recognition (MER) aims to identify the emotions conveyed in a given musical piece. But currently in the field of MER, the available public datasets have limited sample sizes. Recently, segment-based methods for emotion-related tasks have been proposed, which train backbone networks on shorter segments instead of entire audio clips, thereby naturally augmenting training samples without requiring additional resources. Then, the predicted segment-level results are aggregated to obtain the entire song prediction. The most commonly used method is that segment inherits the label of the clip containing it, but music emotion is not constant during the whole clip. Doing so will introduce label noise and make the training overfit easily. To handle the noisy label issue, we propose a semi-supervised self-learning (SSSL) method, which can differentiate between samples with correct and incorrect labels in a self-learning manner, thus effectively utilizing the augmented segment-level data. Experiments on three public emotional datasets demonstrate that the proposed method can achieve better or comparable performance.
- Abstract(参考訳): 音楽感情認識(MER)は、ある楽曲で伝達される感情を特定することを目的としている。
しかし、現在MERの分野では、利用可能な公開データセットはサンプルサイズが限られている。
近年,音声クリップ全体ではなく,短いセグメントでバックボーンネットワークをトレーニングする,感情関連タスクのセグメントベース手法が提案されている。
そして、予測されたセグメントレベルの結果を集約して、歌の予測全体を得る。
最もよく使われる方法は、セグメントがそれを含むクリップのラベルを継承することであるが、音楽の感情はクリップ全体を通して一定ではない。
そうすることでラベルノイズが発生し、トレーニングのオーバーフィットが容易になります。
ノイズの多いラベル問題に対処するため,半教師付き自己学習法(SSSL)を提案する。
3つの公開感情データセットの実験は、提案手法がより良い、あるいは同等のパフォーマンスを達成できることを実証している。
関連論文リスト
- Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Modelling Emotion Dynamics in Song Lyrics with State Space Models [4.18804572788063]
本研究では,歌詞の感情動態を楽曲レベルの監督なしに予測する手法を提案する。
提案手法を適用すれば,注釈付き楽曲を必要とせずに文レベルベースラインの性能を常に向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T21:07:23Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - Unsupervised Learning of Deep Features for Music Segmentation [8.528384027684192]
音楽セグメンテーション(英: Music segmentation)は、音楽セグメンテーションの境界を識別し、ラベル付けする問題である。
様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存している。
本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープ・フィーチャー・埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。
論文 参考訳(メタデータ) (2021-08-30T01:55:44Z) - Musical Prosody-Driven Emotion Classification: Interpreting Vocalists
Portrayal of Emotions Through Machine Learning [0.0]
音楽の韻律の役割は、いくつかの研究が韻律と感情の強い結びつきを示しているにもかかわらず、まだ解明されていない。
本研究では,従来の機械学習アルゴリズムの入力を音楽韻律の特徴に限定する。
我々は,ボーカリストの個人データ収集手法と,アーティスト自身による個人的根拠的真理ラベル付け手法を利用する。
論文 参考訳(メタデータ) (2021-06-04T15:40:19Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。