論文の概要: Spectrogram Inpainting for Interactive Generation of Instrument Sounds
- arxiv url: http://arxiv.org/abs/2104.07519v1
- Date: Thu, 15 Apr 2021 15:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 20:26:47.111840
- Title: Spectrogram Inpainting for Interactive Generation of Instrument Sounds
- Title(参考訳): インスツルメンツ音のインタラクティブ生成のためのスペクトログラム塗装
- Authors: Th\'eis Bazin and Ga\"etan Hadjeres and Philippe Esling and Mikhail
Malt
- Abstract要約: 個別の楽器音の生成は,音を反復的に形作る新しい独特な方法を導入し,インパインティングに基づく課題として捉えた。
最も重要なことは、私たちはインタラクティブなWebインターフェースをオープンソースにして、アーティストや実践者向けに、新しいクリエイティブな用途に開放することで音を変換します。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern approaches to sound synthesis using deep neural networks are hard to
control, especially when fine-grained conditioning information is not
available, hindering their adoption by musicians.
In this paper, we cast the generation of individual instrumental notes as an
inpainting-based task, introducing novel and unique ways to iteratively shape
sounds. To this end, we propose a two-step approach: first, we adapt the
VQ-VAE-2 image generation architecture to spectrograms in order to convert
real-valued spectrograms into compact discrete codemaps, we then implement
token-masked Transformers for the inpainting-based generation of these
codemaps.
We apply the proposed architecture on the NSynth dataset on masked resampling
tasks. Most crucially, we open-source an interactive web interface to transform
sounds by inpainting, for artists and practitioners alike, opening up to new,
creative uses.
- Abstract(参考訳): ディープニューラルネットワークを用いた音声合成の現代的アプローチは、特にきめ細かい条件付け情報が入手できない場合、制御が困難であり、ミュージシャンによる採用を妨げる。
本稿では,個別の楽器音の生成を印象づける作業として,新しい独特な手法を導入し,音を反復的に形作る手法を提案する。
そこで我々は,まず,VQ-VAE-2画像生成アーキテクチャをスペクトログラムに適応させて,実値の分光図をコンパクトな離散コードマップに変換する方法を提案する。
NSynthデータセットに提案したアーキテクチャをマスク再サンプリングタスクに適用する。
最も重要なことは、私たちはインタラクティブなWebインターフェースをオープンソースにして、アーティストや実践者向けに、新しいクリエイティブな用途に開放することで音を変換します。
関連論文リスト
- Pictures Of MIDI: Controlled Music Generation via Graphical Prompts for Image-Based Diffusion Inpainting [0.0]
本研究は,MIDIピアノロール画像に基づいて訓練されたHourglass Diffusion Transformer (HDiT)モデルを用いて,マスク付き領域の描画を可能にするユーザフレンドリーなグラフィカルインタフェースについて検討する。
メロディ,伴奏,継続の塗布に加えて,リペイントの使用は,ユーザ仕様によく適合する音楽構造をノート密度を高めるのに役立つことを実証した。
論文 参考訳(メタデータ) (2024-07-01T17:43:45Z) - Mesh Denoising Transformer [104.5404564075393]
Mesh Denoisingは、入力メッシュからノイズを取り除き、特徴構造を保存することを目的としている。
SurfaceFormerはTransformerベースのメッシュDenoisingフレームワークのパイオニアだ。
局所曲面記述子(Local Surface Descriptor)として知られる新しい表現は、局所幾何学的複雑さをキャプチャする。
Denoising Transformerモジュールは、マルチモーダル情報を受信し、効率的なグローバル機能アグリゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-10T15:27:43Z) - Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文 参考訳(メタデータ) (2023-04-12T17:55:59Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Content-aware Warping for View Synthesis [110.54435867693203]
本稿では,比較的大きな近傍の画素の重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。
この学習可能なワープモジュールに基づいて、2つのソースビューから新しいビューを合成するエンド・ツー・エンドの学習ベースのフレームワークを提案する。
広いベースラインと非構造的多視点データセットを有する構造的光フィールドデータセットの実験結果から,提案手法は,定量的かつ視覚的に,最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-01-22T11:35:05Z) - Sequence-to-Sequence Piano Transcription with Transformers [6.177271244427368]
標準的な復号法を用いたエンコーダ・デコーダ変換器を用いて,等価な性能が得られることを示す。
本モデルでは,複数の転写タスクに対して,スペクトル入力を直接MIDIライクな出力イベントに変換することを学習できることを実証する。
論文 参考訳(メタデータ) (2021-07-19T20:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。