論文の概要: A General Framework for Learning Prosodic-Enhanced Representation of Rap
Lyrics
- arxiv url: http://arxiv.org/abs/2103.12615v1
- Date: Tue, 23 Mar 2021 15:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 20:14:00.384546
- Title: A General Framework for Learning Prosodic-Enhanced Representation of Rap
Lyrics
- Title(参考訳): ラップ歌詞の韻律強調表現学習のための一般的なフレームワーク
- Authors: Hongru Liang, Haozheng Wang, Qian Li, Jun Wang, Guandong Xu, Jiawei
Chen, Jin-Mao Wei, Zhenglu Yang
- Abstract要約: ラップ歌詞の学習と分析は、多くのWebアプリケーションにとって重要な基礎です。
階層型注目変動オートエンコーダフレームワーク(HAVAE)を提案する。
様々な特徴を適切に統合し,韻律強調表現を生成する特徴集約戦略を提案する。
- 参考スコア(独自算出の注目度): 21.944835086749375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning and analyzing rap lyrics is a significant basis for many web
applications, such as music recommendation, automatic music categorization, and
music information retrieval, due to the abundant source of digital music in the
World Wide Web. Although numerous studies have explored the topic, knowledge in
this field is far from satisfactory, because critical issues, such as prosodic
information and its effective representation, as well as appropriate
integration of various features, are usually ignored. In this paper, we propose
a hierarchical attention variational autoencoder framework (HAVAE), which
simultaneously consider semantic and prosodic features for rap lyrics
representation learning. Specifically, the representation of the prosodic
features is encoded by phonetic transcriptions with a novel and effective
strategy~(i.e., rhyme2vec). Moreover, a feature aggregation strategy is
proposed to appropriately integrate various features and generate
prosodic-enhanced representation. A comprehensive empirical evaluation
demonstrates that the proposed framework outperforms the state-of-the-art
approaches under various metrics in different rap lyrics learning tasks.
- Abstract(参考訳): ラップ歌詞の学習と分析は、World Wide Webにおけるデジタル音楽の豊富な供給源のため、音楽推薦、自動分類、音楽情報検索など、多くのウェブアプリケーションにとって重要な基盤となっている。
多くの研究がこの話題を探求しているが、韻律情報やその効果的な表現といった重要な問題や様々な特徴の適切な統合は無視されるため、この分野の知識は十分ではない。
本稿では,rap歌詞表現学習における意味的特徴と韻律的特徴を同時に考慮した階層的注意変動オートエンコーダフレームワーク(havae)を提案する。
具体的には、韻律的特徴の表現は、新しい効果的な戦略(すなわちrhyme2vec)を持つ音韻的転写によって符号化される。
さらに,様々な特徴を適切に統合し,韻律強調表現を生成する特徴集約戦略を提案する。
包括的実証的評価により,提案フレームワークはラップ歌詞学習タスクにおいて,様々な指標で最先端のアプローチを上回っていることが示された。
関連論文リスト
- Aligned Music Notation and Lyrics Transcription [8.411893399638046]
本稿では,Aligned Music Notation and Lyrics Transcription (AMNLT) の課題を紹介する。
音楽記号、歌詞、それらの同期を共同で検討することで、声楽の完全な書き起こしに対処する。
我々は、音楽と歌詞を別々に扱う従来の分詞法から、新しいエンドツーエンドソリューションまで、この課題に対処するための様々なアプローチを評価する。
論文 参考訳(メタデータ) (2024-12-05T14:50:11Z) - Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。
これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽における歌詞のモダリティに焦点を当てた研究は行われていない。
我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-06-21T15:19:21Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - A Phoneme-Informed Neural Network Model for Note-Level Singing
Transcription [11.951441023641975]
本稿では,歌唱の言語的特徴を活用して,より正確に歌唱音声の音節オンセットを見つける方法を提案する。
本手法は, 歌唱文の書き起こし性能を大幅に向上させ, 歌唱分析における言語的特徴の重要性を強調している。
論文 参考訳(メタデータ) (2023-04-12T15:36:01Z) - The Music Annotation Pattern [1.2043574473965315]
我々は,様々なアノテーションシステムを均質化し,様々な種類の音楽オブジェクトを表現するために,オントロジーデザインパターン(ODP)である音楽パターンを紹介する。
我々のODPは、様々なソースから派生したアノテーションを記述するために、マルチモーダリティを前もって説明しており、大規模な音楽データセットの統合を可能にするのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-30T11:13:59Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - High-dimensional distributed semantic spaces for utterances [0.2907403645801429]
本稿では,発話とテキストレベルデータの高次元表現モデルについて述べる。
言語情報を表現する数学的原理と行動学的に妥当なアプローチに基づいている。
本論文は,固定次元の共通積分フレームワークにおいて,実装モデルが言語的特徴を広範囲に表すことができるかを示す。
論文 参考訳(メタデータ) (2021-04-01T12:09:47Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。