Fugu-MT 論文翻訳(概要): Joint Learning of Emotions in Music and Generalized Sounds

論文の概要: Joint Learning of Emotions in Music and Generalized Sounds

arxiv url: http://arxiv.org/abs/2408.02009v2
Date: Wed, 14 Aug 2024 09:28:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 15:28:26.635087
Title: Joint Learning of Emotions in Music and Generalized Sounds
Title（参考訳）: 音楽における感情と一般音の同時学習
Authors: Federico Simonetta, Francesca Certo, Stavros Ntalampiras,
Abstract要約: マルチドメイン学習手法として複数のデータセットを提案する。我々のアプローチは、一般化された音と音楽の両方を特徴付ける特徴を包含する共通空間を作ることである。異種モデルアーキテクチャを活用し,共通特徴空間で共同学習を行った。
参考スコア（独自算出の注目度）: 6.854732863866882
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, we aim to determine if generalized sounds and music can share a common emotional space, improving predictions of emotion in terms of arousal and valence. We propose the use of multiple datasets as a multi-domain learning technique. Our approach involves creating a common space encompassing features that characterize both generalized sounds and music, as they can evoke emotions in a similar manner. To achieve this, we utilized two publicly available datasets, namely IADS-E and PMEmo, following a standardized experimental protocol. We employed a wide variety of features that capture diverse aspects of the audio structure including key parameters of spectrum, energy, and voicing. Subsequently, we performed joint learning on the common feature space, leveraging heterogeneous model architectures. Interestingly, this synergistic scheme outperforms the state-of-the-art in both sound and music emotion prediction. The code enabling full replication of the presented experimental pipeline is available at https://github.com/LIMUNIMI/MusicSoundEmotions.
Abstract（参考訳）: 本研究では、一般化された音と音楽が共通の感情空間を共有できるかどうかを判断し、覚醒的・無効性の観点から感情の予測を改善することを目的とする。マルチドメイン学習手法として複数のデータセットを提案する。我々のアプローチは、一般的な音と音楽の両方を特徴付ける特徴を包含する共通空間を作ることである。これを実現するために、IADS-EとPMEmoという2つの公開データセットを標準化された実験プロトコルに従って利用した。我々は、スペクトル、エネルギー、発声のキーパラメータを含む、オーディオ構造の様々な側面を捉える様々な特徴を取り入れた。その後、異種モデルアーキテクチャを活用し、共通特徴空間で共同学習を行った。興味深いことに、このシナジスティックなスキームは、音と音楽の感情の予測において最先端の手法よりも優れています。提案された実験パイプラインの完全なレプリケーションを可能にするコードはhttps://github.com/LIMUNIMI/MusicSoundEmotions.comで公開されている。

関連論文リスト

Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations [14.058054715262275]
音声や音楽からの感情認識は、その音響的重なり合いから類似性を共有しており、これらの領域間での知識の伝達に関心が持たれている。本稿では,感情音声と音楽の音響的類似性を再考し,自己監督学習(SSL)モデルの階層的振る舞いの分析から始める。最後に、Frechet音声距離を用いた感情音声と音楽の音響的類似性について検討し、音声と音楽のSSLモデルにおける感情バイアスの問題を明らかにする。
論文参考訳（メタデータ） (2024-09-26T14:49:09Z)
Addressing Emotion Bias in Music Emotion Recognition and Generation with Frechet Audio Distance [11.89773040110695]
我々は、音楽感情認識(MER)と感情音楽生成(EMG)の研究を行う。本稿では,Frechet Audio Distance(FAD)とともに,様々なオーディオエンコーダを用いる。
論文参考訳（メタデータ） (2024-09-23T20:59:15Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
Song Emotion Recognition: a Performance Comparison Between Audio Features and Artificial Neural Networks [0.0]
この問題に対処するために使用される最も一般的な特徴とモデルについて検討し、カペラの歌で感情を認識するのに適したものを明らかにする。本稿では,この課題に対処するために,近年の出版物で用いられている最も一般的な特徴とモデルについて検討し,カペラ歌の感情認識に最も適しているものについて述べる。
論文参考訳（メタデータ） (2022-09-24T16:13:25Z)
Contrastive Learning with Positive-Negative Frame Mask for Music Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文参考訳（メタデータ） (2022-03-17T07:11:42Z)
Enhancing Affective Representations of Music-Induced EEG through Multimodal Supervision and latent Domain Adaptation [34.726185927120355]
脳波の重み付けとして音楽信号を用い,その意味的対応を共通の表現空間に投影することを目的としている。我々は、LSTMに基づくアテンションモデルと、音楽タギングのための事前訓練されたモデルを組み合わせたバイモーダル・フレームワークと、その2つのモードの分布を整列するリバース・ドメイン・ディミネータを併用して、バイモーダル・フレームワークを利用する。脳波入力クエリに関連音楽サンプルを提供することにより、モダリティのいずれからも、間接的に、教師付き予測を行うことで、感情認識に利用することができる。
論文参考訳（メタデータ） (2022-02-20T07:32:12Z)
A Novel Multi-Task Learning Method for Symbolic Music Emotion Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文参考訳（メタデータ） (2022-01-15T07:45:10Z)
EEGminer: Discovering Interpretable Features of Brain Activity with Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文参考訳（メタデータ） (2021-10-19T14:22:04Z)
Musical Prosody-Driven Emotion Classification: Interpreting Vocalists Portrayal of Emotions Through Machine Learning [0.0]
音楽の韻律の役割は、いくつかの研究が韻律と感情の強い結びつきを示しているにもかかわらず、まだ解明されていない。本研究では,従来の機械学習アルゴリズムの入力を音楽韻律の特徴に限定する。我々は,ボーカリストの個人データ収集手法と,アーティスト自身による個人的根拠的真理ラベル付け手法を利用する。
論文参考訳（メタデータ） (2021-06-04T15:40:19Z)
Towards Explaining Expressive Qualities in Piano Recordings: Transfer of Explanatory Features via Acoustic Domain Adaptation [8.071506311915396]
本研究では,教師なし領域適応とレセプティブフィールド正規化ディープニューラルネットワークを併用することで,この領域への一般化を大幅に改善できることを示した。ヒトリスナーが知覚し、描写したクラシックピアノ演奏の表現力をより良く予測し、説明できることを実証します。
論文参考訳（メタデータ） (2021-02-26T13:49:44Z)
Emotion-Based End-to-End Matching Between Image and Music in Valence-Arousal Space [80.49156615923106]
イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。既存の感情に基づく画像と音楽のマッチング手法では、限られたカテゴリーの感情状態を使用するか、非現実的なマルチステージパイプラインを使用してマッチングモデルを訓練する。本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
論文参考訳（メタデータ） (2020-08-22T20:12:23Z)
Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文参考訳（メタデータ） (2020-04-20T17:53:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。