論文の概要: Neural Network architectures to classify emotions in Indian Classical
Music
- arxiv url: http://arxiv.org/abs/2102.00616v1
- Date: Mon, 1 Feb 2021 03:41:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 15:18:50.071664
- Title: Neural Network architectures to classify emotions in Indian Classical
Music
- Title(参考訳): インド古典音楽における感情分類のためのニューラルネットワークアーキテクチャ
- Authors: Uddalok Sarkar, Sayan Nag, Medha Basu, Archi Banerjee, Shankha Sanyal,
Ranjan Sengupta, Dipak Ghosh
- Abstract要約: JUMusEmoDBと呼ばれる新しいデータセットは、現在400のオーディオクリップ(それぞれ30秒)を持っている。
教師付き分類のために、我々は既存の4つの深層畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを使用した。
インド古典音楽の豊富なコーパスを用いたCNNに基づく分類アルゴリズムは,グローバルな視点においても独特である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music is often considered as the language of emotions. It has long been known
to elicit emotions in human being and thus categorizing music based on the type
of emotions they induce in human being is a very intriguing topic of research.
When the task comes to classify emotions elicited by Indian Classical Music
(ICM), it becomes much more challenging because of the inherent ambiguity
associated with ICM. The fact that a single musical performance can evoke a
variety of emotional response in the audience is implicit to the nature of ICM
renditions. With the rapid advancements in the field of Deep Learning, this
Music Emotion Recognition (MER) task is becoming more and more relevant and
robust, hence can be applied to one of the most challenging test case i.e.
classifying emotions elicited from ICM. In this paper we present a new dataset
called JUMusEmoDB which presently has 400 audio clips (30 seconds each) where
200 clips correspond to happy emotions and the remaining 200 clips correspond
to sad emotion. For supervised classification purposes, we have used 4 existing
deep Convolutional Neural Network (CNN) based architectures (resnet18,
mobilenet v2.0, squeezenet v1.0 and vgg16) on corresponding music spectrograms
of the 2000 sub-clips (where every clip was segmented into 5 sub-clips of about
5 seconds each) which contain both time as well as frequency domain
information. The initial results are quite inspiring, and we look forward to
setting the baseline values for the dataset using this architecture. This type
of CNN based classification algorithm using a rich corpus of Indian Classical
Music is unique even in the global perspective and can be replicated in other
modalities of music also. This dataset is still under development and we plan
to include more data containing other emotional features as well. We plan to
make the dataset publicly available soon.
- Abstract(参考訳): 音楽はしばしば感情の言語と見なされる。
長い間、人間の感情を引き出すことが知られており、人間の感情のタイプに基づいて音楽を分類することが、非常に興味深い研究のトピックである。
インド古典音楽(ICM)によって引き起こされる感情を分類する作業になると、ICMに固有の曖昧さのため、さらに困難になる。
1つの演奏が聴衆の様々な感情的反応を誘発するという事実は、ICMの反響の性質に暗黙的である。
ディープラーニングの分野での急速な進歩により、この音楽感情認識(MER)タスクはますます関連性が高く、堅牢になりつつあるため、最も困難なテストケースの1つ、すなわち1つに適用することができる。
ICMからの感情の分類。
本稿では,200クリップがハッピー感情に対応し,残りの200クリップが悲しい感情に対応する,400のオーディオクリップ(それぞれ30秒)を持つjumusemodbという新しいデータセットを提案する。
教師付き分類のために、2000年サブクリップ(各クリップを5つのサブクリップに分割する)の対応する音楽スペクトログラムに既存の4つのディープ畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャ(resnet18, mobilenet v2.0, tightnet v1.0, vgg16)を使用し、周波数領域情報と時間領域情報の両方を含む。
最初の結果は非常に刺激的であり、このアーキテクチャを使ってデータセットのベースライン値を設定することを楽しみにしています。
インド古典音楽の豊富なコーパスを用いたCNNに基づく分類アルゴリズムは,グローバルな視点でもユニークであり,他の音楽のモダリティにおいても再現可能である。
このデータセットはまだ開発中であり、他の感情的特徴を含むデータも追加する予定です。
近いうちにデータセットを一般公開する予定です。
関連論文リスト
- Emotion Manipulation Through Music -- A Deep Learning Interactive Visual Approach [0.0]
我々は,AIツールを用いて歌の感情的内容を操作する新しい方法を提案する。
私たちのゴールは、元のメロディをできるだけそのままにして、望ましい感情を達成することです。
この研究は、オンデマンドのカスタム音楽生成、既存の作品の自動リミックス、感情の進行に合わせて調整された音楽プレイリストに寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-12T20:12:29Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Music Emotion Prediction Using Recurrent Neural Networks [8.867897390286815]
本研究は,聴取者の感情状態に合うように音楽を調整することで,音楽レコメンデーションシステムを強化し,治療介入を支援することを目的とする。
ラッセルの感情クアドラントを用いて、音楽を4つの異なる感情領域に分類し、これらのカテゴリーを正確に予測できるモデルを開発する。
我々のアプローチは、Librosaを使って包括的なオーディオ機能を抽出し、標準RNN、双方向RNN、Long Short-Term Memory(LSTM)ネットワークなど、さまざまなリカレントニューラルネットワークアーキテクチャを適用します。
論文 参考訳(メタデータ) (2024-05-10T18:03:20Z) - Song Emotion Recognition: a Performance Comparison Between Audio
Features and Artificial Neural Networks [0.0]
この問題に対処するために使用される最も一般的な特徴とモデルについて検討し、カペラの歌で感情を認識するのに適したものを明らかにする。
本稿では,この課題に対処するために,近年の出版物で用いられている最も一般的な特徴とモデルについて検討し,カペラ歌の感情認識に最も適しているものについて述べる。
論文 参考訳(メタデータ) (2022-09-24T16:13:25Z) - Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
論文 参考訳(メタデータ) (2022-08-03T10:00:49Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - Comparing the Accuracy of Deep Neural Networks (DNN) and Convolutional
Neural Network (CNN) in Music Genre Recognition (MGR): Experiments on Kurdish
Music [0.0]
8種類のクルド音楽ジャンルの880のサンプルを含むデータセットを開発した。
我々は、Deep Neural Network(DNN)とConvolutional Neural Network(CNN)の2つの機械学習アプローチを評価し、そのジャンルを認識した。
論文 参考訳(メタデータ) (2021-11-22T09:21:48Z) - Musical Prosody-Driven Emotion Classification: Interpreting Vocalists
Portrayal of Emotions Through Machine Learning [0.0]
音楽の韻律の役割は、いくつかの研究が韻律と感情の強い結びつきを示しているにもかかわらず、まだ解明されていない。
本研究では,従来の機械学習アルゴリズムの入力を音楽韻律の特徴に限定する。
我々は,ボーカリストの個人データ収集手法と,アーティスト自身による個人的根拠的真理ラベル付け手法を利用する。
論文 参考訳(メタデータ) (2021-06-04T15:40:19Z) - Emotion-Based End-to-End Matching Between Image and Music in
Valence-Arousal Space [80.49156615923106]
イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。
既存の感情に基づく画像と音楽のマッチング手法では、限られたカテゴリーの感情状態を使用するか、非現実的なマルチステージパイプラインを使用してマッチングモデルを訓練する。
本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
論文 参考訳(メタデータ) (2020-08-22T20:12:23Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。