Fugu-MT 論文翻訳(概要): Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment

論文の概要: Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment

arxiv url: http://arxiv.org/abs/2505.12669v1
Date: Mon, 19 May 2025 03:36:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.382882
Title: Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment
Title（参考訳）: Text2midi-InferAlign:推論時間アライメントによるシンボリック音楽生成の改善
Authors: Abhinaba Roy, Geeta Puri, Dorien Herremans,
Abstract要約: 提案するText2midi-InferAlignは,推定時間におけるシンボリック音楽生成を改善する新しい手法である。提案手法は,テキスト・オーディオ・アライメントと推定中の音楽構造アライメントの報酬を利用して,生成した音楽が入力キャプションと整合するように促す。
参考スコア（独自算出の注目度）: 6.806050368211496
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Text2midi-InferAlign, a novel technique for improving symbolic music generation at inference time. Our method leverages text-to-audio alignment and music structural alignment rewards during inference to encourage the generated music to be consistent with the input caption. Specifically, we introduce two objectives scores: a text-audio consistency score that measures rhythmic alignment between the generated music and the original text caption, and a harmonic consistency score that penalizes generated music containing notes inconsistent with the key. By optimizing these alignment-based objectives during the generation process, our model produces symbolic music that is more closely tied to the input captions, thereby improving the overall quality and coherence of the generated compositions. Our approach can extend any existing autoregressive model without requiring further training or fine-tuning. We evaluate our work on top of Text2midi - an existing text-to-midi generation model, demonstrating significant improvements in both objective and subjective evaluation metrics.
Abstract（参考訳）: 提案するText2midi-InferAlignは,推定時間におけるシンボリック音楽生成を改善する新しい手法である。提案手法は,テキスト・オーディオ・アライメントと推定中の音楽構造アライメントの報酬を利用して,生成した音楽が入力キャプションと整合するように促す。具体的には、生成した音楽と原文キャプションのリズムアライメントを測定するテキスト・オーディオ整合スコアと、キーと矛盾しない音符を含む生成された音楽をペナルティ化するハーモニック整合スコアの2つを紹介する。生成過程において、これらのアライメントに基づく目的を最適化することにより、入力キャプションにより密接なシンボリック音楽を生成し、生成した楽曲の全体的な品質とコヒーレンスを向上させる。我々のアプローチは、さらなるトレーニングや微調整を必要とせずに、既存の自己回帰モデルを拡張することができる。既存のテキスト・ツー・ミディ生成モデルであるText2midi上での作業を評価し,客観的・主観的評価指標に大きな改善が見られた。

関連論文リスト

MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。条件信号として自動的に抽出されたリズムとコードを統合する。 MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文参考訳（メタデータ） (2024-07-21T05:27:53Z)
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文参考訳（メタデータ） (2023-08-03T05:35:37Z)
Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文参考訳（メタデータ） (2023-05-30T17:20:25Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文参考訳（メタデータ） (2023-05-12T20:57:20Z)
ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文参考訳（メタデータ） (2023-02-09T06:27:09Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文参考訳（メタデータ） (2022-02-12T10:36:52Z)
SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文参考訳（メタデータ） (2020-12-09T16:56:59Z)
Continuous Melody Generation via Disentangled Short-Term Representations and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文参考訳（メタデータ） (2020-02-05T06:23:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。