論文の概要: Tollywood Emotions: Annotation of Valence-Arousal in Telugu Song Lyrics
- arxiv url: http://arxiv.org/abs/2303.09364v1
- Date: Thu, 16 Mar 2023 14:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:13:42.994709
- Title: Tollywood Emotions: Annotation of Valence-Arousal in Telugu Song Lyrics
- Title(参考訳): Tollywood Emotions: Annotation of Valence-Arousal in Telugu Song Lyrics
- Authors: R Guru Ravi Shanker, B Manikanta Gupta, BV Koushik, Vinoo Alluri
- Abstract要約: Spotifyから収集したTeluguの歌詞を手動で注釈付けしたデータセットを提示する。
2つの分類手法を用いて2つの音楽感情認識モデルを作成する。
データセットを、歌詞、アノテーション、Spotify IDで公開しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition from a given music track has heavily relied on acoustic
features, social tags, and metadata but is seldom focused on lyrics. There are
no datasets of Indian language songs that contain both valence and arousal
manual ratings of lyrics. We present a new manually annotated dataset of Telugu
songs' lyrics collected from Spotify with valence and arousal annotated on a
discrete scale. A fairly high inter-annotator agreement was observed for both
valence and arousal. Subsequently, we create two music emotion recognition
models by using two classification techniques to identify valence, arousal and
respective emotion quadrant from lyrics. Support vector machine (SVM) with term
frequency-inverse document frequency (TF-IDF) features and fine-tuning the
pre-trained XLMRoBERTa (XLM-R) model were used for valence, arousal and
quadrant classification tasks. Fine-tuned XLMRoBERTa performs better than the
SVM by improving macro-averaged F1-scores of 54.69%, 67.61%, 34.13% to 77.90%,
80.71% and 58.33% for valence, arousal and quadrant classifications,
respectively, on 10-fold cross-validation. In addition, we compare our lyrics
annotations with Spotify's annotations of valence and energy (same as arousal),
which are based on entire music tracks. The implications of our findings are
discussed. Finally, we make the dataset publicly available with lyrics,
annotations and Spotify IDs.
- Abstract(参考訳): 特定の音楽トラックからの感情認識は、音響的特徴、ソーシャルタグ、メタデータに大きく依存しているが、歌詞にはほとんど焦点を当てていない。
ヴァレンスと覚醒的手動による歌詞評価の両方を含むインドの歌のデータセットは存在しない。
本稿では,Spotifyから収集したTeluguの歌詞を手作業で注釈付けした新しいデータセットについて紹介する。
ヴァレンスと覚醒の両方において、かなり高いアノテータ間合意が観察された。
次に,2つの分類手法を用いて,歌詞からヴァレンス,覚醒,それぞれの感情を識別する音楽感情認識モデルを作成する。
時間周波数逆文書周波数(TF-IDF)特性と事前学習したXLMRoBERTa(XLM-R)モデルを微調整したサポートベクターマシン(SVM)を用いた。
微調整されたXLMRoBERTaは、平均F1スコア(54.69%、67.61%、34.13%から77.90%、80.71%、58.33%)を10倍のクロスバリデーションで改善し、SVMよりも優れている。
さらに、歌詞の注釈をspotifyのヴァレンスとエネルギの注釈(arousalと同じ)と比較した。
本研究の意義について述べる。
最後に、私たちはデータセットを歌詞、アノテーション、spotify idで公開しています。
関連論文リスト
- Song Emotion Classification of Lyrics with Out-of-Domain Data under Label Scarcity [0.0]
歌詞に基づく感情分類のための,大規模で高品質なドメインデータセットが不足している。
大規模なRedditコメントデータセットに基づいてトレーニングされたCNNモデルは、歌詞の感情分類に満足なパフォーマンスと一般化性を実現する。
論文 参考訳(メタデータ) (2024-10-08T07:58:15Z) - Towards Estimating Personal Values in Song Lyrics [5.170818712089796]
西洋諸国で広く消費されている音楽は、歌詞が含まれており、アメリカのサンプルでは、彼らの楽曲ライブラリのほとんどすべてが歌詞を含んでいると報告している。
本稿では,社会科学理論に導かれたパースペクティビズム的アプローチを用いて,アノテーションの収集,品質評価,集約を行う。
次に、評価値辞書を用いて、事前学習した文/単語の埋め込みモデルに基づく評価値と比較する。
論文 参考訳(メタデータ) (2024-08-22T19:22:55Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Modeling Emotional Trajectories in Written Stories Utilizing Transformers and Weakly-Supervised Learning [47.02027575768659]
本研究では,個別の感情カテゴリーで注釈付けされた子どもの物語の既存のデータセットに対して,連続的原子価と覚醒ラベルを導入する。
得られた感情信号を予測するために,DeBERTaモデルを微調整し,弱教師付き学習手法を用いてベースラインを改善する。
詳細な分析では、著者、個々の物語、物語内のセクションなどの要因によって結果がどの程度異なるかが示される。
論文 参考訳(メタデータ) (2024-06-04T12:17:16Z) - Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark [2.6297569393407416]
本稿では,JamendoLyricsデータセットに基づく新しい歌詞の書き起こしベンチマークであるJam-ALTを紹介する。
まず、ALTの評価に特化して書き起こしの完全な改訂を行った。
第2に、従来の単語エラー率とは異なり、このような現象を捉えるために設計された評価指標のセット。
論文 参考訳(メタデータ) (2023-11-23T13:13:48Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Multi-Modality in Music: Predicting Emotion in Music from High-Level
Audio Features and Lyrics [0.0]
本稿では,音楽感情認識(MER)のマルチモーダルアプローチが,ハイレベルな楽曲の特徴や歌詞において,ユニモーダルアプローチよりも優れているかどうかを検証することを目的とする。
Spotify APIから検索した11の楽曲機能と、感情、TF-IDF、Anewなどの歌詞機能を組み合わせて、評価と興奮を予測しています。
論文 参考訳(メタデータ) (2023-02-26T13:38:42Z) - The Contribution of Lyrics and Acoustics to Collaborative Understanding
of Mood [7.426508199697412]
データ駆動分析により歌詞と気分の関連性を検討した。
われわれのデータセットは100万曲近くで、Spotifyのストリーミングプラットフォーム上のユーザープレイリストから曲とムードのアソシエーションが生まれている。
我々は、トランスフォーマーに基づく最先端の自然言語処理モデルを利用して、歌詞と気分の関係を学習する。
論文 参考訳(メタデータ) (2022-05-31T19:58:41Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - Emotion-Based End-to-End Matching Between Image and Music in
Valence-Arousal Space [80.49156615923106]
イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。
既存の感情に基づく画像と音楽のマッチング手法では、限られたカテゴリーの感情状態を使用するか、非現実的なマルチステージパイプラインを使用してマッチングモデルを訓練する。
本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
論文 参考訳(メタデータ) (2020-08-22T20:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。