論文の概要: Agent-Driven Large Language Models for Mandarin Lyric Generation
- arxiv url: http://arxiv.org/abs/2410.01450v1
- Date: Wed, 2 Oct 2024 12:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:44:25.208301
- Title: Agent-Driven Large Language Models for Mandarin Lyric Generation
- Title(参考訳): マンダリン歌詞生成のためのエージェント駆動型大言語モデル
- Authors: Hong-Hsiang Liu, Yi-Wen Liu,
- Abstract要約: マンダリンのような音節の輪郭言語では、ピッチの輪郭はメロディとトーンの両方に影響され、歌詞とメロディの適合性が変化する。
本研究は,作詞家やメロディ作家が作曲過程に適合していることを確認する。
本研究では,メロディから歌詞へのタスクをサブタスクに分解するマルチエージェントシステムを開発し,各エージェントが韻律,音節数,歌詞・メロディのアライメント,一貫性を制御している。
- 参考スコア(独自算出の注目度): 2.2221991003992967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Large Language Models have shown impressive in-context learning abilities, performing well across various tasks with just a prompt. Previous melody-to-lyric research has been limited by scarce high-quality aligned data and unclear standard for creativeness. Most efforts focused on general themes or emotions, which are less valuable given current language model capabilities. In tonal contour languages like Mandarin, pitch contours are influenced by both melody and tone, leading to variations in lyric-melody fit. Our study, validated by the Mpop600 dataset, confirms that lyricists and melody writers consider this fit during their composition process. In this research, we developed a multi-agent system that decomposes the melody-to-lyric task into sub-tasks, with each agent controlling rhyme, syllable count, lyric-melody alignment, and consistency. Listening tests were conducted via a diffusion-based singing voice synthesizer to evaluate the quality of lyrics generated by different agent groups.
- Abstract(参考訳): 生成可能な大規模言語モデルは、インコンテキスト学習能力に優れており、プロンプトだけで様々なタスクでうまく機能している。
これまでのメロディから歌詞への研究は、高品質な整列データが少ないことと、創造性に関する不明瞭な基準によって制限されてきた。
ほとんどの取り組みは、現在の言語モデル能力を考えると価値の低い一般的なテーマや感情に焦点を当てています。
マンダリンのような音節の輪郭言語では、ピッチの輪郭はメロディとトーンの両方に影響され、歌詞とメロディの適合性が変化する。
Mpop600データセットで検証した結果, 作詞家やメロディ作家が作曲過程に適合すると考えられることが確認された。
本研究では,メロディから歌詞へのタスクをサブタスクに分解するマルチエージェントシステムを開発し,各エージェントが韻律,音節数,歌詞・メロディのアライメント,一貫性を制御している。
異なるエージェント群が生成する歌詞の質を評価するために,拡散型歌唱音声合成器を用いて聴取試験を行った。
関連論文リスト
- SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - Syllable-level lyrics generation from melody exploiting character-level
language model [14.851295355381712]
シンボリック・メロディから音節レベルの歌詞を生成するための微調整文字レベル言語モデルを提案する。
特に,言語モデルの言語知識を音節レベルのトランスフォーマー生成ネットワークのビームサーチプロセスに組み込む手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T02:53:29Z) - Controllable Lyrics-to-Melody Generation [14.15838552524433]
ユーザは好みの音楽スタイルで歌詞からリアルなメロディを生成できる、制御可能な歌詞・メロディ生成ネットワークであるConL2Mを提案する。
本研究は,音楽属性の依存関係を複数のシーケンスをまたいでモデル化するため,マルチブランチスタック型LSTMアーキテクチャ間の情報フローを実現するためにメモリ間融合(Memofu)を提案し,参照スタイル埋め込み(RSE)を提案し,生成したメロディの音楽スタイルを制御し,シーケンスレベルの統計的損失(SeqLoss)をモデルがシーケンスレベルを学習するのに役立つように提案した。
論文 参考訳(メタデータ) (2023-06-05T06:14:08Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - TeleMelody: Lyric-to-Melody Generation with a Template-Based Two-Stage
Method [92.36505210982648]
TeleMelody(テレメロディ)は、音楽テンプレートを備えた2段階の歌詞からメロディ生成システムである。
高品質で、制御性が良く、ペアリングされた歌詞・メロディデータに対する要求も少ないメロディを生成する。
論文 参考訳(メタデータ) (2021-09-20T15:19:33Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。