Fugu-MT 論文翻訳(概要): Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement

論文の概要: Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement

arxiv url: http://arxiv.org/abs/2410.16785v1
Date: Tue, 22 Oct 2024 08:01:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.930059
Title: Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement
Title（参考訳）: コンカチオン合成と生成精製による無注釈MIDI-to-Audio合成
Authors: Osamu Take, Taketo Akama,
Abstract要約: CoSaRefはMIDI-to-audio合成法であり、MIDI-audioペアデータセットを使わずに開発することができる。まず、MIDI入力に基づいて結合的な合成を行い、音声のみのデータセットに基づいて訓練された拡散に基づく深層生成モデルを用いて、結果のオーディオをリアルなトラックに洗練する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent MIDI-to-audio synthesis methods have employed deep neural networks to successfully generate high-quality and expressive instrumental tracks. However, these methods require MIDI annotations for supervised training, limiting the diversity of the output audio in terms of instrument timbres, and expression styles. We propose CoSaRef, a MIDI-to-audio synthesis method that can be developed without MIDI-audio paired datasets. CoSaRef first performs concatenative synthesis based on MIDI inputs and then refines the resulting audio into realistic tracks using a diffusion-based deep generative model trained on audio-only datasets. This approach enhances the diversity of audio timbres and expression styles. It also allows for control over the output timbre based on audio sample selection, similar to traditional functions in digital audio workstations. Experiments show that while inherently capable of generating general tracks with high control over timbre, CoSaRef can also perform comparably to conventional methods in generating realistic audio.
Abstract（参考訳）: 近年のMIDI-to-audio合成法では,高品位で表現力に富んだ楽器トラックの生成にディープニューラルネットワークが用いられている。しかし、これらの手法には教師付きトレーニングのためのMIDIアノテーションが必要であり、楽器の音色や表現スタイルの点で出力音声の多様性が制限されている。そこで我々は,MIDI-to-audio合成法であるCoSaRefを提案する。 CoSaRefはまず、MIDI入力に基づいてコンカニカルな合成を行い、その後オーディオのみのデータセットに基づいてトレーニングされた拡散ベースの深層生成モデルを使用して、結果のオーディオをリアルなトラックに洗練する。このアプローチは、音声の音色と表現スタイルの多様性を高める。また、デジタルオーディオワークステーションの伝統的な機能と同様、オーディオサンプルの選択に基づいて出力の音色を制御できる。実験により,音色を制御した一般的なトラックを本質的に生成できるが,現実的な音声を生成する従来の手法と相容れない性能が得られた。

関連論文リスト

MIDI-VALLE: Improving Expressive Piano Performance Synthesis Through Neural Codec Language Modelling [32.78044321881271]
音声合成のためのVALLEフレームワークであるMIDI-VALLEを提案する。 VALLEはMIDIとオーディオの両方を離散トークンとしてエンコードし、より一貫性があり堅牢なピアノ演奏のモデリングを容易にする。評価の結果,MIDI-VALLEは最先端のベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-07-11T12:28:20Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
TokenSynth: A Token-based Neural Synthesizer for Instrument Cloning and Text-to-Instrument [19.395289629201056]
Token Synthは、MIDIトークンとCLAP埋め込みからオーディオトークンを生成する新しいニューラルシンセサイザーである。本モデルは,楽器のクローニング,テキスト間合成,テキスト誘導音色操作を行うことができる。
論文参考訳（メタデータ） (2025-02-13T03:40:30Z)
MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition [4.152843247686306]
MIDI-GPTはコンピュータ支援音楽合成のための生成システムである。楽器の種類、音楽スタイル、音の密度、ポリフォニーレベル、音の持続時間などの属性を条件付けできる。本研究では,MIDI-GPTがトレーニング対象の音楽素材の複製を一貫して回避し,トレーニングデータセットとスタイリスティックに類似した音楽を生成し,属性制御が生成した素材に様々な制約を課すことを実証する実験結果を示す。
論文参考訳（メタデータ） (2025-01-28T15:17:36Z)
Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文参考訳（メタデータ） (2024-07-31T23:27:27Z)
Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文参考訳（メタデータ） (2024-07-02T08:23:38Z)
Creative Text-to-Audio Generation via Synthesizer Programming [1.1203110769488043]
78個のパラメータしか持たない仮想モジュールサウンドシンセサイザーを利用するテキスト音声生成手法を提案する。提案手法であるCTAGは、テキストプロンプトの高品質なオーディオレンダリングを生成するために、シンセサイザーのパラメータを反復的に更新する。
論文参考訳（メタデータ） (2024-06-01T04:08:31Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文参考訳（メタデータ） (2024-01-23T08:59:21Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文参考訳（メタデータ） (2022-12-04T18:09:23Z)
Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。 MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文参考訳（メタデータ） (2022-06-11T03:26:15Z)
MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical Modeling [6.256118777336895]
音楽表現は、どの音符が演奏され、どのように演奏されるかの両方を制御する必要がある。楽器の階層モデルであるMIDI-DDSPを導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。この階層は、高忠実度音声を再構成し、音符列のパフォーマンス特性を正確に予測し、与えられた音符列の属性を独立に操作し、また、完全なシステムとして、新しい音符列から現実的な音声を生成することを実証する。
論文参考訳（メタデータ） (2021-12-17T04:15:42Z)
Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control [47.33830090185952]
任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
論文参考訳（メタデータ） (2021-11-17T14:31:55Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)
Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文参考訳（メタデータ） (2020-07-21T17:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。