Fugu-MT 論文翻訳(概要): Rethinking Emotion Bias in Music via Frechet Audio Distance

論文の概要: Rethinking Emotion Bias in Music via Frechet Audio Distance

arxiv url: http://arxiv.org/abs/2409.15545v1
Date: Mon, 23 Sep 2024 20:59:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 12:47:38.601864
Title: Rethinking Emotion Bias in Music via Frechet Audio Distance
Title（参考訳）: Frechet Audio Distanceによる音楽における感情バイアスの再考
Authors: Yuanchao Li, Azalea Gui, Dimitra Emmanouilidou, Hannes Gamper,
Abstract要約: 我々は、音楽感情認識(MER)と感情音楽生成(EMG)の研究を行う。本稿では,Frechet Audio Distance(FAD)と並行して,多様なオーディオエンコーダを用いる。
参考スコア（独自算出の注目度）: 11.89773040110695
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The subjective nature of music emotion introduces inherent bias in both recognition and generation, especially when relying on a single audio encoder, emotion classifier, or evaluation metric. In this work, we conduct a study on Music Emotion Recognition (MER) and Emotional Music Generation (EMG), employing diverse audio encoders alongside the Frechet Audio Distance (FAD), a reference-free evaluation metric. Our study begins with a benchmark evaluation of MER, highlighting the limitations associated with using a single audio encoder and the disparities observed across different measurements. We then propose assessing MER performance using FAD from multiple encoders to provide a more objective measure of music emotion. Furthermore, we introduce an enhanced EMG approach designed to improve both the variation and prominence of generated music emotion, thus enhancing realism. Additionally, we investigate the realism disparities between the emotions conveyed in real and synthetic music, comparing our EMG model against two baseline models. Experimental results underscore the emotion bias problem in both MER and EMG and demonstrate the potential of using FAD and diverse audio encoders to evaluate music emotion objectively.
Abstract（参考訳）: 音楽感情の主観的性質は、認識と生成の両方に固有のバイアスをもたらす。本研究では,Frechet Audio Distance(FAD)とともに,多様なオーディオエンコーダを用いた音楽感情認識(MER)と感情音楽生成(EMG)の研究を行う。本研究は、MERのベンチマーク評価から始まり、単一のオーディオエンコーダを用いた場合の限界と、異なる測定値間で観測される相違について強調する。次に、複数のエンコーダからFADを用いてMER演奏の評価を行い、より客観的な音楽感情の測定方法を提案する。さらに、生成した音楽の感情の変化と卓越性を改善し、現実性を高めるために、改良されたEMGアプローチを導入する。さらに,2つのベースラインモデルとEMGモデルを比較し,実音楽と合成音楽で伝達される感情間のリアリズムの相違について検討した。実験結果から,MERとEMGの双方の感情バイアス問題を明らかにし,FADと多様なオーディオエンコーダを用いて音楽感情を客観的に評価する可能性を実証した。

関連論文リスト

Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations [14.058054715262275]
音声や音楽からの感情認識は、その音響的重なり合いから類似性を共有しており、これらの領域間での知識の伝達に関心が持たれている。本稿では,感情音声と音楽の音響的類似性を再考し,自己監督学習(SSL)モデルの階層的振る舞いの分析から始める。最後に、Frechet音声距離を用いた感情音声と音楽の音響的類似性について検討し、音声と音楽のSSLモデルにおける感情バイアスの問題を明らかにする。
論文参考訳（メタデータ） (2024-09-26T14:49:09Z)
Joint Learning of Emotions in Music and Generalized Sounds [6.854732863866882]
マルチドメイン学習手法として複数のデータセットを提案する。我々のアプローチは、一般化された音と音楽の両方を特徴付ける特徴を包含する共通空間を作ることである。異種モデルアーキテクチャを活用し,共通特徴空間で共同学習を行った。
論文参考訳（メタデータ） (2024-08-04T12:19:03Z)
Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文参考訳（メタデータ） (2024-06-17T03:01:22Z)
Emotion Manipulation Through Music -- A Deep Learning Interactive Visual Approach [0.0]
我々は,AIツールを用いて歌の感情的内容を操作する新しい方法を提案する。私たちのゴールは、元のメロディをできるだけそのままにして、望ましい感情を達成することです。この研究は、オンデマンドのカスタム音楽生成、既存の作品の自動リミックス、感情の進行に合わせて調整された音楽プレイリストに寄与する可能性がある。
論文参考訳（メタデータ） (2024-06-12T20:12:29Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
MusER: Musical Element-Based Regularization for Generating Symbolic Music with Emotion [16.658813060879293]
本稿では,音楽的要素に基づく正則化を潜在空間に導入し,異なる要素をアンタングルする手法を提案する。潜在空間を可視化することにより、 MusER は非絡み合いで解釈可能な潜在空間が得られると結論付ける。実験の結果,MusERは感情音楽を生成する最先端のモデルよりも優れていた。
論文参考訳（メタデータ） (2023-12-16T03:50:13Z)
Contrastive Learning with Positive-Negative Frame Mask for Music Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文参考訳（メタデータ） (2022-03-17T07:11:42Z)
A Novel Multi-Task Learning Method for Symbolic Music Emotion Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文参考訳（メタデータ） (2022-01-15T07:45:10Z)
Musical Prosody-Driven Emotion Classification: Interpreting Vocalists Portrayal of Emotions Through Machine Learning [0.0]
音楽の韻律の役割は、いくつかの研究が韻律と感情の強い結びつきを示しているにもかかわらず、まだ解明されていない。本研究では,従来の機械学習アルゴリズムの入力を音楽韻律の特徴に限定する。我々は,ボーカリストの個人データ収集手法と,アーティスト自身による個人的根拠的真理ラベル付け手法を利用する。
論文参考訳（メタデータ） (2021-06-04T15:40:19Z)
Comparison and Analysis of Deep Audio Embeddings for Music Emotion Recognition [1.6143012623830792]
音楽感情認識タスクに使用するために,最先端の事前学習した深層音声埋め込み手法を用いる。深い音声埋め込みは、人間工学を使わずにmerタスクのための音楽的感情意味論を表す。
論文参考訳（メタデータ） (2021-04-13T21:09:54Z)
Affect2MM: Affective Analysis of Multimedia Content Using Emotion Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文参考訳（メタデータ） (2021-03-11T09:07:25Z)
Emotion-Based End-to-End Matching Between Image and Music in Valence-Arousal Space [80.49156615923106]
イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。既存の感情に基づく画像と音楽のマッチング手法では、限られたカテゴリーの感情状態を使用するか、非現実的なマルチステージパイプラインを使用してマッチングモデルを訓練する。本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
論文参考訳（メタデータ） (2020-08-22T20:12:23Z)
Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文参考訳（メタデータ） (2020-02-01T17:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。