Fugu-MT 論文翻訳(概要): MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation

論文の概要: MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation

arxiv url: http://arxiv.org/abs/2407.03188v2
Date: Thu, 11 Jul 2024 03:32:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 22:08:28.052020
Title: MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation
Title（参考訳）: MuDiT & MuSiT:記述音声生成における口語表現のアライメント
Authors: Zihao Wang, Haoxuan Liu, Jiaxing Yu, Tao Zhang, Yan Liu, Kejun Zhang,
Abstract要約: 本稿では,口語記述から歌声生成への新たな課題を提案する。生成されたコンテンツと口語的人間の表現の整合性に焦点を当てている。この課題は、AIモデル内の言語理解と聴覚表現のギャップを埋めることを目的としている。
参考スコア（独自算出の注目度）: 18.181382408551574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Amid the rising intersection of generative AI and human artistic processes, this study probes the critical yet less-explored terrain of alignment in human-centric automatic song composition. We propose a novel task of Colloquial Description-to-Song Generation, which focuses on aligning the generated content with colloquial human expressions. This task is aimed at bridging the gap between colloquial language understanding and auditory expression within an AI model, with the ultimate goal of creating songs that accurately satisfy human auditory expectations and structurally align with musical norms. Current datasets are limited due to their narrow descriptive scope, semantic gaps and inaccuracies. To overcome data scarcity in this domain, we present the Caichong Music Dataset (CaiMD). CaiMD is manually annotated by both professional musicians and amateurs, offering diverse perspectives and a comprehensive understanding of colloquial descriptions. Unlike existing datasets pre-set with expert annotations or auto-generated ones with inherent biases, CaiMD caters more sufficiently to our purpose of aligning AI-generated music with widespread user-desired results. Moreover, we propose an innovative single-stage framework called MuDiT/MuSiT for enabling effective human-machine alignment in song creation. This framework not only achieves cross-modal comprehension between colloquial language and auditory music perceptions but also ensures generated songs align with user-desired results. MuDiT/MuSiT employs one DiT/SiT model for end-to-end generation of musical components like melody, harmony, rhythm, vocals, and instrumentation. The approach ensures harmonious sonic cohesiveness amongst all generated musical components, facilitating better resonance with human auditory expectations.
Abstract（参考訳）: 生成的AIと人間の芸術的プロセスの交わりが増す中、本研究では人間中心の自動作曲において、重要かつ探索の少ないアライメントの地形を探索する。本稿では,生成した内容と人間の表現との整合性に着目した,口語記述音声生成の新しい課題を提案する。この課題は,AIモデルにおける言語理解と聴覚表現のギャップを埋めることを目的としており,人間の聴覚的期待を正確に満たし,音楽的規範と構造的に整合する曲を作ることが究極の目標である。現在のデータセットは、その狭い記述範囲、セマンティックギャップ、不正確さのために制限されている。この領域におけるデータの不足を克服するため,CaiMD (Caichong Music Dataset) を提案する。 CaiMDはプロのミュージシャンとアマチュアの両方によって手動で注釈付けされ、多様な視点と口語的記述の包括的な理解を提供する。専門家のアノテーションや、固有のバイアスを持つ自動生成のデータセットと異なり、CaiMDは、AI生成した音楽と幅広いユーザー要求の結果とを合わせるという私たちの目的に十分対応しています。また,楽曲作成において効果的な人間・機械のアライメントを実現するために,MuDiT/MuSiTと呼ばれる革新的なシングルステージフレームワークを提案する。このフレームワークは、口語と聴覚音楽の知覚の相互理解を達成するだけでなく、生成した曲がユーザの希望する結果と一致することを保証する。 MuDiT/MuSiTは、メロディ、ハーモニー、リズム、ボーカル、インスツルメンテーションなどの音楽コンポーネントをエンドツーエンドに生成するために、1つのDiT/SiTモデルを使用する。このアプローチは、生成したすべての音楽成分間の調和した音素の結合性を確保し、人間の聴覚的期待とよりよく共鳴させる。

関連論文リスト

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.643965544581683]
音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。 MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-03-25T12:51:21Z)
SongGLM: Lyric-to-Melody Generation with 2D Alignment Encoding and Multi-Task Pre-Training [7.3026780262967685]
SongGLMは2次元アライメント符号化とマルチタスク事前学習を利用する歌詞からメロディ生成システムである。我々は,20万曲以上の英曲を事前学習と微調整に用いた大規模歌詞・旋律ペアデータセットを構築した。
論文参考訳（メタデータ） (2024-12-24T02:30:07Z)
SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文参考訳（メタデータ） (2024-09-09T19:37:07Z)
Controllable Lyrics-to-Melody Generation [14.15838552524433]
ユーザは好みの音楽スタイルで歌詞からリアルなメロディを生成できる、制御可能な歌詞・メロディ生成ネットワークであるConL2Mを提案する。本研究は,音楽属性の依存関係を複数のシーケンスをまたいでモデル化するため,マルチブランチスタック型LSTMアーキテクチャ間の情報フローを実現するためにメモリ間融合(Memofu)を提案し,参照スタイル埋め込み(RSE)を提案し,生成したメロディの音楽スタイルを制御し,シーケンスレベルの統計的損失(SeqLoss)をモデルがシーケンスレベルを学習するのに役立つように提案した。
論文参考訳（メタデータ） (2023-06-05T06:14:08Z)
Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文参考訳（メタデータ） (2023-05-30T17:20:25Z)
Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文参考訳（メタデータ） (2023-05-12T20:57:20Z)
Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。 ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文参考訳（メタデータ） (2022-08-11T08:44:47Z)
Interpretable Melody Generation from Lyrics with Discrete-Valued Adversarial Training [12.02541352832997]
Gumbel-Softmaxは、GAN(Generative Adversarial Networks)による音楽属性生成の非微分性問題を解決するために利用される。ユーザーは生成されたAI曲を聴くだけでなく、推奨音楽属性から選択することで新しい曲を再生することができる。
論文参考訳（メタデータ） (2022-06-30T05:45:47Z)
Flat latent manifolds for music improvisation between human and machine [9.571383193449648]
相互即興化が新たな体験につながるような環境では,音楽生成アルゴリズムを人間の音楽家に対抗するものとみなす。学習モデルでは、潜在空間の定量化により新しい音楽系列を生成する。そこで我々は,音楽実験を通じて提案手法の実証的証拠を提供し,プロのドラマーと対話的なジャムセッションのためのモデルを展開した。
論文参考訳（メタデータ） (2022-02-23T09:00:17Z)
Music Harmony Generation, through Deep Learning and Using a Multi-Objective Evolutionary Algorithm [0.0]
本稿では,ポリフォニック音楽生成のための遺伝的多目的進化最適化アルゴリズムを提案する。ゴールの1つは音楽の規則と規則であり、他の2つのゴール、例えば音楽の専門家や普通のリスナーのスコアとともに、最も最適な反応を得るために進化のサイクルに適合する。その結果,提案手法は,聞き手を引き寄せながら文法に従う調和音とともに,所望のスタイルや長さの難易度と快適さを生み出すことができることがわかった。
論文参考訳（メタデータ） (2021-02-16T05:05:54Z)
SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文参考訳（メタデータ） (2020-12-09T16:56:59Z)
Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文参考訳（メタデータ） (2020-10-28T02:35:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。