論文の概要: EMelodyGen: Emotion-Conditioned Melody Generation in ABC Notation with the Musical Feature Template
- arxiv url: http://arxiv.org/abs/2309.13259v2
- Date: Tue, 22 Apr 2025 01:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 05:17:26.727541
- Title: EMelodyGen: Emotion-Conditioned Melody Generation in ABC Notation with the Musical Feature Template
- Title(参考訳): EMelodyGen:音楽的特徴テンプレートを用いたABC表記における感情調和型メロディ生成
- Authors: Monan Zhou, Xiaobing Li, Feng Yu, Wei Li,
- Abstract要約: EMelodyGenは、音楽的特徴テンプレートによって制御されるABC表記における感情的なメロディ生成に焦点を当てている。
音楽的特徴と感情ラベルの統計的相関による感情的メロディ生成を制御するテンプレートを設計した。
Rough4Qで事前トレーニングしたシステムでは、最大99%の音楽21パース率を実現でき、テンプレートによって生成されたメロディーは、盲目聴取テストにおける感情表現に91%のアライメントをもたらす。
- 参考スコア(独自算出の注目度): 5.0244825467141006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The EMelodyGen system focuses on emotional melody generation in ABC notation controlled by the musical feature template. Owing to the scarcity of well-structured and emotionally labeled sheet music, we designed a template for controlling emotional melody generation by statistical correlations between musical features and emotion labels derived from small-scale emotional symbolic music datasets and music psychology conclusions. We then automatically annotated a large, well-structured sheet music collection with rough emotional labels by the template, converted them into ABC notation, and reduced label imbalance by data augmentation, resulting in a dataset named Rough4Q. Our system backbone pre-trained on Rough4Q can achieve up to 99% music21 parsing rate and melodies generated by our template can lead to a 91% alignment on emotional expressions in blind listening tests. Ablation studies further validated the effectiveness of the feature controls in the template. Available code and demos are at https://github.com/monetjoe/EMelodyGen.
- Abstract(参考訳): The EMelodyGen system focus on emotional melody generation in ABC Notation control by the musical feature template。
そこで我々は,音楽の特徴と感情ラベルとの統計的相関による感情的メロディ生成を制御するテンプレートを設計した。
そこで我々は,テンプレートによって大きめの感情ラベルを付した大きなシート楽曲コレクションを自動的にアノテートし,ABC表記に変換し,データ拡張によるラベルの不均衡を低減し,Rough4Qというデータセットを作成した。
Rough4Qで事前トレーニングしたシステムでは、最大99%の音楽21パース率を実現でき、テンプレートによって生成されたメロディーは、盲目聴取テストにおける感情表現に91%のアライメントをもたらす。
アブレーション研究はテンプレートにおける特徴制御の有効性をさらに検証した。
利用可能なコードとデモはhttps://github.com/monetjoe/EMelodyGen.comにある。
関連論文リスト
- Video Soundtrack Generation by Aligning Emotions and Temporal Boundaries [1.1743167854433303]
EMSYNCはビデオベースのシンボリック音楽生成モデルであり、音楽とビデオの感情的内容と時間的境界を一致させる。
本研究では,音節をシーンカットで予測・調整できる新しい時間的条件付け機構である境界オフセットを導入する。
主観的聴取テストにおいて、EMSYNCは、音楽理論を意識した参加者だけでなく、一般の聴取者に対しても、すべての主観的尺度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2025-02-14T13:32:59Z) - Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation [18.12051302437043]
本稿では,時間的構成による生成的拡張から学習することで,微粒化音楽理解機能を備えたモデルを提案する。
既存の音楽キャプションデータセットと大言語モデル(LLM)を利用して、フル長曲の詳細な音楽キャプションを構造記述と時間境界で合成する。
論文 参考訳(メタデータ) (2024-07-29T22:53:32Z) - Emotion-Driven Melody Harmonization via Melodic Variation and Functional Representation [16.790582113573453]
感情駆動のメロディは、望ましい感情を伝えるために、1つのメロディのための多様なハーモニーを生成することを目的としている。
以前の研究では、異なるコードで同じメロディを調和させることで、リードシートの知覚的価値を変えることが困難であった。
本稿では,シンボリック音楽の新たな機能表現を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:05:12Z) - MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - Emotion Manipulation Through Music -- A Deep Learning Interactive Visual Approach [0.0]
我々は,AIツールを用いて歌の感情的内容を操作する新しい方法を提案する。
私たちのゴールは、元のメロディをできるだけそのままにして、望ましい感情を達成することです。
この研究は、オンデマンドのカスタム音楽生成、既存の作品の自動リミックス、感情の進行に合わせて調整された音楽プレイリストに寄与する可能性がある。
論文 参考訳(メタデータ) (2024-06-12T20:12:29Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural
Language Instruction [56.196512595940334]
WikiInsは高品質な制御されたテキスト編集データセットで、情報性が向上している。
高品質なアノテートデータセットを用いて,大規模な銀のトレーニングセットを生成するための自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-08T04:46:39Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MuseCoco: Generating Symbolic Music from Text [29.14875340011866]
MuseCocoは、音楽属性のテキスト記述からシンボリック音楽を生成する。
MuseCoCoは音楽コンポジション・コパイロット(Music Composition Copilot)の略で、ミュージシャンが与えられたテキストから音楽を直接生成できるようにする。
我々は120億のパラメータを持つロバストな大規模モデルを開発し、例外的な制御性と音楽性を示している。
論文 参考訳(メタデータ) (2023-05-31T18:34:16Z) - SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages [87.08880616654258]
我々は、SWiPEデータセットを導入し、英語のウィキペディア(EW)記事から単純なウィキペディア(SEW)記事への文書レベルの編集プロセスを再構築する。
我々はウィキペディアの編集者と協力して5000のEW-SEWドキュメントペアを注釈付けし、提案された19のカテゴリで4万以上の編集をラベル付けしています。
SWiPEで訓練されたモデルは、不要な編集を減らしながら、より複雑な編集を生成する。
論文 参考訳(メタデータ) (2023-05-30T16:52:42Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - TeleMelody: Lyric-to-Melody Generation with a Template-Based Two-Stage
Method [92.36505210982648]
TeleMelody(テレメロディ)は、音楽テンプレートを備えた2段階の歌詞からメロディ生成システムである。
高品質で、制御性が良く、ペアリングされた歌詞・メロディデータに対する要求も少ないメロディを生成する。
論文 参考訳(メタデータ) (2021-09-20T15:19:33Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Generating Wikipedia Article Sections from Diverse Data Sources [57.23574577984244]
WikiTableTでいくつかのトレーニングとデコード戦略をベンチマークする。
我々の定性的な分析は、最良のアプローチは、流動的で高品質なテキストを生成することができるが、コヒーレンスに苦しむことがあることを示している。
論文 参考訳(メタデータ) (2020-12-29T19:35:34Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - Mining Knowledge for Natural Language Inference from Wikipedia
Categories [53.26072815839198]
NLIおよびLEタスクのモデル性能を改善するためのリソースであるWikiNLIを紹介する。
ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。
我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示します。
論文 参考訳(メタデータ) (2020-10-03T00:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。