Fugu-MT 論文翻訳(概要): Performance Conditioning for Diffusion-Based Multi-Instrument Music Synthesis

論文の概要: Performance Conditioning for Diffusion-Based Multi-Instrument Music Synthesis

arxiv url: http://arxiv.org/abs/2309.12283v1
Date: Thu, 21 Sep 2023 17:44:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 13:58:03.328870
Title: Performance Conditioning for Diffusion-Based Multi-Instrument Music Synthesis
Title（参考訳）: 拡散型マルチインストゥルメント音楽合成のためのパフォーマンスコンディショニング
Authors: Ben Maman, Johannes Zeitler, Meinard M\"uller, Amit H. Bermano
Abstract要約: 本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
参考スコア（独自算出の注目度）: 15.670399197114012
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Generating multi-instrument music from symbolic music representations is an important task in Music Information Retrieval (MIR). A central but still largely unsolved problem in this context is musically and acoustically informed control in the generation process. As the main contribution of this work, we propose enhancing control of multi-instrument synthesis by conditioning a generative model on a specific performance and recording environment, thus allowing for better guidance of timbre and style. Building on state-of-the-art diffusion-based music generative models, we introduce performance conditioning - a simple tool indicating the generative model to synthesize music with style and timbre of specific instruments taken from specific performances. Our prototype is evaluated using uncurated performances with diverse instrumentation and achieves state-of-the-art FAD realism scores while allowing novel timbre and style control. Our project page, including samples and demonstrations, is available at benadar293.github.io/midipm
Abstract（参考訳）: シンボリックな音楽表現から多構成音楽を生成することは、音楽情報検索(MIR)において重要な課題である。この文脈における中心的だがまだ解決されていない問題は、生成過程における音楽的および音響的情報制御である。本研究の主な貢献として,特定の演奏・録音環境において生成モデルを条件付けすることにより,音色・スタイルをより良く指導できるマルチインストゥルメント合成の制御の強化を提案する。現状の拡散に基づく音楽生成モデルを構築し,特定の演奏から抽出した特定の楽器のスタイルと音色で合成する生成モデルを示すシンプルなツールである演奏条件を導入する。試作機は,多種多様な楽器を用いた未処理演奏を用いて評価し,新しい音色とスタイル制御を実現しつつ,最先端のFADリアリズムスコアを達成した。サンプルやデモを含む私たちのプロジェクトページは、benadar293.github.io/midipmで利用可能です。

関連論文リスト

SyMuPe: Affective and Controllable Symbolic Music Performance [0.00746020873338928]
我々は、感情的かつ制御可能なピアノ演奏モデルの開発と訓練のための新しいフレームワークであるSyMuPeを提案する。当社のフラッグシップモデルであるPanoFlowでは,さまざまなマルチマスクパフォーマンス向上タスクを解決するために,条件付きフローマッチングをトレーニングしています。感情制御では,異なるテキスト条件下で生成されたサンプルを提示・分析する。
論文参考訳（メタデータ） (2025-11-05T12:42:08Z)
Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文参考訳（メタデータ） (2025-06-30T14:00:14Z)
Efficient Fine-Grained Guidance for Diffusion-Based Symbolic Music Generation [14.156461396686248]
拡散モデルにFGG(Fined Guidance)アプローチを導入する。 FGGは拡散モデルをガイドし、専門家作曲家の制御と意図とより密に整合した音楽を生成する。このアプローチは拡散モデルにより、即興性やインタラクティブな音楽生成といった高度な応用に優れる。
論文参考訳（メタデータ） (2024-10-11T00:41:46Z)
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文参考訳（メタデータ） (2024-07-05T08:08:22Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文参考訳（メタデータ） (2023-06-19T08:58:26Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文参考訳（メタデータ） (2022-02-12T10:36:52Z)
MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical Modeling [6.256118777336895]
音楽表現は、どの音符が演奏され、どのように演奏されるかの両方を制御する必要がある。楽器の階層モデルであるMIDI-DDSPを導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。この階層は、高忠実度音声を再構成し、音符列のパフォーマンス特性を正確に予測し、与えられた音符列の属性を独立に操作し、また、完全なシステムとして、新しい音符列から現実的な音声を生成することを実証する。
論文参考訳（メタデータ） (2021-12-17T04:15:42Z)
Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文参考訳（メタデータ） (2020-04-20T17:53:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。