論文の概要: Timbre latent space: exploration and creative aspects
- arxiv url: http://arxiv.org/abs/2008.01370v2
- Date: Mon, 17 Aug 2020 13:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 01:16:31.683012
- Title: Timbre latent space: exploration and creative aspects
- Title(参考訳): ティンブレラテント空間 : 探索と創造的側面
- Authors: Antoine Caillon, Adrien Bitton, Brice Gatinet, Philippe Esling
- Abstract要約: 近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。
生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
- 参考スコア(独自算出の注目度): 1.3764085113103222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show the ability of unsupervised models to learn invertible
audio representations using Auto-Encoders. They enable high-quality sound
synthesis but a limited control since the latent spaces do not disentangle
timbre properties. The emergence of disentangled representations was studied in
Variational Auto-Encoders (VAEs), and has been applied to audio. Using an
additional perceptual regularization can align such latent representation with
the previously established multi-dimensional timbre spaces, while allowing
continuous inference and synthesis. Alternatively, some specific sound
attributes can be learned as control variables while unsupervised dimensions
account for the remaining features. New possibilities for timbre manipulations
are enabled with generative neural networks, although the exploration and the
creative use of their representations remain little. The following experiments
are led in cooperation with two composers and propose new creative directions
to explore latent sound synthesis of musical timbres, using specifically
designed interfaces (Max/MSP, Pure Data) or mappings for descriptor-based
synthesis.
- Abstract(参考訳): 最近の研究では、教師なしモデルがオートエンコーダを使って可逆オーディオ表現を学習する能力が示されている。
高品質な音合成を可能にするが、潜在空間が音色特性を歪めないため、限定的な制御が可能である。
可変オートエンコーダ (VAE) において, アンタングル表現の出現について検討し, 音声に適用した。
追加の知覚正規化を用いることで、そのような潜在表現を以前に確立された多次元音色空間と整合させ、連続的な推論と合成を可能にする。
あるいは、特定の音響特性を制御変数として学習することができるが、教師なし次元は残りの特徴を考慮に入れている。
音色操作の新たな可能性は、生成的ニューラルネットワークによって実現されているが、その表現の探索と創造的利用はほとんど残っていない。
以下の実験は、2人の作曲家と協力し、特にデザインされたインタフェース(Max/MSP、Pure Data)や記述子ベースの合成のためのマッピングを用いて、音楽音の潜在音合成を探索するための新しい創造的方向を提案する。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Synthia's Melody: A Benchmark Framework for Unsupervised Domain
Adaptation in Audio [4.537310370334197]
無限の4秒のメロディをシミュレートできる新しい音声データ生成フレームワークであるSynthiaのメロディを提示する。
観測条件下で収集された既存のデータセットとは異なり、シンシアのメロディには観測されていないバイアスがない。
評価の結果,Synthia のメロディは,これらのモデルの様々な分布シフトに対する感受性を検証するための頑健なテストベッドを提供することがわかった。
論文 参考訳(メタデータ) (2023-09-26T15:46:06Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。