論文の概要: Continuous descriptor-based control for deep audio synthesis
- arxiv url: http://arxiv.org/abs/2302.13542v1
- Date: Mon, 27 Feb 2023 06:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 16:43:47.676892
- Title: Continuous descriptor-based control for deep audio synthesis
- Title(参考訳): ディープオーディオ合成のための連続ディスクリプタに基づく制御
- Authors: Ninon Devis, Nils Demerl\'e, Sarah Nabi, David Genova, Philippe Esling
- Abstract要約: 本稿では,表現的かつ連続的な記述子に基づく制御が可能な音声モデルを提案する。
我々は、潜在空間における音楽的特徴を明示的に除去することで、リアルタイム生成の制御性を強制する。
本研究では, 楽器, 打楽器, 音声録音など, 様々な音質において, 提案手法の性能を評価する。
- 参考スコア(独自算出の注目度): 1.2599533416395767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in deep models for music generation, the use of
these techniques remains restricted to expert users. Before being democratized
among musicians, generative models must first provide expressive control over
the generation, as this conditions the integration of deep generative models in
creative workflows. In this paper, we tackle this issue by introducing a deep
generative audio model providing expressive and continuous descriptor-based
control, while remaining lightweight enough to be embedded in a hardware
synthesizer. We enforce the controllability of real-time generation by
explicitly removing salient musical features in the latent space using an
adversarial confusion criterion. User-specified features are then reintroduced
as additional conditioning information, allowing for continuous control of the
generation, akin to a synthesizer knob. We assess the performance of our method
on a wide variety of sounds including instrumental, percussive and speech
recordings while providing both timbre and attributes transfer, allowing new
ways of generating sounds.
- Abstract(参考訳): 音楽生成のための深層モデルの大幅な進歩にもかかわらず、これらの技術の使用は専門家に限られている。
音楽家の間で民主化される前に、生成モデルはまず、創造的ワークフローにおける深い生成モデルの統合を条件として、生成を表現的に制御する必要がある。
本稿では,ハードウェアシンセサイザに組み込むのに十分な軽量性を維持しつつ,表現豊かで連続的なディスクリプタベースの制御を提供する,深い生成型オーディオモデルを導入することで,この問題に取り組む。
我々は,対向的混乱基準を用いて,潜在空間における有意な音楽特徴を明示的に除去し,リアルタイム生成の制御性を強制する。
ユーザが指定した機能は追加のコンディショニング情報として再導入され、シンセサイザーノブのような生成を連続的に制御することができる。
本手法は,楽器,打楽器,音声録音を含む多種多様な音声に対して,音色と属性の伝達を両立させながら評価し,新たな音声生成法を提案する。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。
我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。
本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-31T23:27:27Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Bass Accompaniment Generation via Latent Diffusion [0.0]
任意の長さのミキシングに付随する単一茎を生成する制御可能なシステムを提案する。
本手法のコアとなるのは、音声波形サンプルを効率よく非可逆な潜在表現に圧縮するオーディオオートエンコーダである。
制御可能な条件付きオーディオ生成フレームワークは、音楽制作においてミュージシャンを支援するための生成AIツールを作成する上で、大きな前進となる。
論文 参考訳(メタデータ) (2024-02-02T13:44:47Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - Audio Generation with Multiple Conditional Diffusion Model [15.250081484817324]
本稿では,既存の事前学習型テキスト音声モデルの制御性を向上する新しいモデルを提案する。
このアプローチは、生成された音声の時間的順序、ピッチ、エネルギーを細かく制御する。
論文 参考訳(メタデータ) (2023-08-23T06:21:46Z) - Anticipatory Music Transformer [60.15347393822849]
本稿では、時間点過程の制御可能な生成モデルを構築する方法である予測を導入する。
コントロールはイベント自体のサブセットであるので、コントロールタスクの充実に重点を置いています。
大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
論文 参考訳(メタデータ) (2023-06-14T16:27:53Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。
生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文 参考訳(メタデータ) (2020-08-04T07:08:04Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。