論文の概要: Continuous descriptor-based control for deep audio synthesis
- arxiv url: http://arxiv.org/abs/2302.13542v1
- Date: Mon, 27 Feb 2023 06:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 16:43:47.676892
- Title: Continuous descriptor-based control for deep audio synthesis
- Title(参考訳): ディープオーディオ合成のための連続ディスクリプタに基づく制御
- Authors: Ninon Devis, Nils Demerl\'e, Sarah Nabi, David Genova, Philippe Esling
- Abstract要約: 本稿では,表現的かつ連続的な記述子に基づく制御が可能な音声モデルを提案する。
我々は、潜在空間における音楽的特徴を明示的に除去することで、リアルタイム生成の制御性を強制する。
本研究では, 楽器, 打楽器, 音声録音など, 様々な音質において, 提案手法の性能を評価する。
- 参考スコア(独自算出の注目度): 1.2599533416395767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in deep models for music generation, the use of
these techniques remains restricted to expert users. Before being democratized
among musicians, generative models must first provide expressive control over
the generation, as this conditions the integration of deep generative models in
creative workflows. In this paper, we tackle this issue by introducing a deep
generative audio model providing expressive and continuous descriptor-based
control, while remaining lightweight enough to be embedded in a hardware
synthesizer. We enforce the controllability of real-time generation by
explicitly removing salient musical features in the latent space using an
adversarial confusion criterion. User-specified features are then reintroduced
as additional conditioning information, allowing for continuous control of the
generation, akin to a synthesizer knob. We assess the performance of our method
on a wide variety of sounds including instrumental, percussive and speech
recordings while providing both timbre and attributes transfer, allowing new
ways of generating sounds.
- Abstract(参考訳): 音楽生成のための深層モデルの大幅な進歩にもかかわらず、これらの技術の使用は専門家に限られている。
音楽家の間で民主化される前に、生成モデルはまず、創造的ワークフローにおける深い生成モデルの統合を条件として、生成を表現的に制御する必要がある。
本稿では,ハードウェアシンセサイザに組み込むのに十分な軽量性を維持しつつ,表現豊かで連続的なディスクリプタベースの制御を提供する,深い生成型オーディオモデルを導入することで,この問題に取り組む。
我々は,対向的混乱基準を用いて,潜在空間における有意な音楽特徴を明示的に除去し,リアルタイム生成の制御性を強制する。
ユーザが指定した機能は追加のコンディショニング情報として再導入され、シンセサイザーノブのような生成を連続的に制御することができる。
本手法は,楽器,打楽器,音声録音を含む多種多様な音声に対して,音色と属性の伝達を両立させながら評価し,新たな音声生成法を提案する。
関連論文リスト
- Bass Accompaniment Generation via Latent Diffusion [0.0]
任意の長さのミキシングに付随する単一茎を生成する制御可能なシステムを提案する。
本手法のコアとなるのは、音声波形サンプルを効率よく非可逆な潜在表現に圧縮するオーディオオートエンコーダである。
制御可能な条件付きオーディオ生成フレームワークは、音楽制作においてミュージシャンを支援するための生成AIツールを作成する上で、大きな前進となる。
論文 参考訳(メタデータ) (2024-02-02T13:44:47Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - Audio Generation with Multiple Conditional Diffusion Model [15.250081484817324]
本稿では,既存の事前学習型テキスト音声モデルの制御性を向上する新しいモデルを提案する。
このアプローチは、生成された音声の時間的順序、ピッチ、エネルギーを細かく制御する。
論文 参考訳(メタデータ) (2023-08-23T06:21:46Z) - Anticipatory Music Transformer [77.29752896976116]
本稿では、時間点過程の制御可能な生成モデルを構築する方法である予測を導入する。
コントロールはイベント自体のサブセットであるので、コントロールタスクの充実に重点を置いています。
大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
論文 参考訳(メタデータ) (2023-06-14T16:27:53Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。
生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文 参考訳(メタデータ) (2020-08-04T07:08:04Z) - Unconditional Audio Generation with Generative Adversarial Networks and
Cycle Regularization [48.55126268721948]
本稿では,歌声のメル-スペクトログラムの無条件生成のためのGANモデルを提案する。
我々は、時間次元のいくつかの構造を誘導するために、ジェネレータに階層的アーキテクチャーを用いる。
歌声生成だけでなく,歌声生成のための新モデルの性能評価を行った。
論文 参考訳(メタデータ) (2020-05-18T08:35:16Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。