論文の概要: Pictures Of MIDI: Controlled Music Generation via Graphical Prompts for Image-Based Diffusion Inpainting
- arxiv url: http://arxiv.org/abs/2407.01499v1
- Date: Mon, 1 Jul 2024 17:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:21:46.308393
- Title: Pictures Of MIDI: Controlled Music Generation via Graphical Prompts for Image-Based Diffusion Inpainting
- Title(参考訳): MIDIの画像: 画像ベース拡散インペインティングのためのグラフィカルプロンプトによる音楽生成制御
- Authors: Scott H. Hawley,
- Abstract要約: 本研究は,MIDIピアノロール画像に基づいて訓練されたHourglass Diffusion Transformer (HDiT)モデルを用いて,マスク付き領域の描画を可能にするユーザフレンドリーなグラフィカルインタフェースについて検討する。
メロディ,伴奏,継続の塗布に加えて,リペイントの使用は,ユーザ仕様によく適合する音楽構造をノート密度を高めるのに役立つことを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed significant progress in generative models for music, featuring diverse architectures that balance output quality, diversity, speed, and user control. This study explores a user-friendly graphical interface enabling the drawing of masked regions for inpainting by an Hourglass Diffusion Transformer (HDiT) model trained on MIDI piano roll images. To enhance note generation in specified areas, masked regions can be "repainted" with extra noise. The non-latent HDiTs linear scaling with pixel count allows efficient generation in pixel space, providing intuitive and interpretable controls such as masking throughout the network and removing the need to operate in compressed latent spaces such as those provided by pretrained autoencoders. We demonstrate that, in addition to inpainting of melodies, accompaniment, and continuations, the use of repainting can help increase note density yielding musical structures closely matching user specifications such as rising, falling, or diverging melody and/or accompaniment, even when these lie outside the typical training data distribution. We achieve performance on par with prior results while operating at longer context windows, with no autoencoder, and can enable complex geometries for inpainting masks, increasing the options for machine-assisted composers to control the generated music.
- Abstract(参考訳): 近年では、出力品質、多様性、スピード、ユーザコントロールのバランスをとる様々なアーキテクチャが特徴となっている。
本研究は,MIDIピアノロール画像に基づいて訓練されたHourglass Diffusion Transformer (HDiT)モデルを用いて,マスク付き領域の描画を可能にするユーザフレンドリーなグラフィカルインタフェースについて検討する。
特定領域における音質生成を強化するため、余分な雑音でマスキングされた領域を「再塗装」することができる。
ピクセルカウントによる非遅延HDiTの線形スケーリングは、ピクセル空間の効率的な生成を可能にし、ネットワーク全体のマスキングのような直感的で解釈可能な制御を提供し、事前訓練されたオートエンコーダによって提供されるような圧縮された遅延空間で操作する必要がない。
本研究では, メロディ, 伴奏, 継続の塗布に加えて, ライティング, 転倒, メロディや伴奏のばらつきといったユーザ仕様によく適合する音楽構造を, 典型的な訓練データ分布の外側にある場合でも, ノート密度の向上に寄与することが実証された。
オートエンコーダを使わずに、より長いコンテキストウインドウで操作しながら、先行結果と同等の性能を実現し、インペイントマスクの複雑なジオメトリーを実現し、機械支援作曲家が生成した音楽を制御できる選択肢を増やした。
関連論文リスト
- Network Bending of Diffusion Models for Audio-Visual Generation [0.09558392439655014]
アーティストが音楽の視覚化を作成できるツールを開発するための第一歩を提示する。
生成ネットワークの層に変換を適用するプロセスであるネットワーク曲げの画像生成拡散モデルへの応用について検討する。
ネットワーク曲げ演算子にパラメータとして音声特徴を渡すことで,安定拡散を用いた音楽再生ビデオを生成する。
論文 参考訳(メタデータ) (2024-06-28T00:39:17Z) - Trusted Video Inpainting Localization via Deep Attentive Noise Learning [2.1210527985139227]
本稿では,堅牢性と一般化性に優れたTruVIL(Trusted Video Inpainting Localization Network)を提案する。
塗装された痕跡を捉えるために,複数段階の深い注意雑音学習を設計する。
十分なトレーニングサンプルを作成するために,2500本のビデオからなるフレームレベルのビデオオブジェクトセグメンテーションデータセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T14:08:58Z) - Lazy Diffusion Transformer for Interactive Image Editing [79.75128130739598]
部分的な画像更新を効率的に生成する新しい拡散変換器であるLazyDiffusionを導入する。
提案手法は,空白キャンバスや画像から,ユーザが局所的な画像修正のシーケンスを指定するインタラクティブな画像編集アプリケーションを対象としている。
論文 参考訳(メタデータ) (2024-04-18T17:59:27Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - Differentiable Soft-Masked Attention [115.5770357189209]
Weakly Supervised Video Objectのタスクには,「識別可能なソフトマッシュアップ注意」が使用されている。
我々は、トランスフォーマーベースのトレーニングネットワークを開発したが、1つのアノテートフレームだけで、ビデオ上でのサイクル一貫性トレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2022-06-01T02:05:13Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - The Piano Inpainting Application [0.0]
生成アルゴリズムは、提供された制御の制限、推論の禁止、ミュージシャンの生成への統合の欠如のために、依然としてアーティストによって広く使われていない。
本稿では,ピアノ演奏のインペインティングに着目した生成モデルであるピアノ・インペインティング・アプリケーション(PIA)について述べる。
論文 参考訳(メタデータ) (2021-07-13T09:33:11Z) - Spectrogram Inpainting for Interactive Generation of Instrument Sounds [1.7205106391379026]
個別の楽器音の生成は,音を反復的に形作る新しい独特な方法を導入し,インパインティングに基づく課題として捉えた。
最も重要なことは、私たちはインタラクティブなWebインターフェースをオープンソースにして、アーティストや実践者向けに、新しいクリエイティブな用途に開放することで音を変換します。
論文 参考訳(メタデータ) (2021-04-15T15:17:31Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。