論文の概要: Neural Granular Sound Synthesis
- arxiv url: http://arxiv.org/abs/2008.01393v3
- Date: Sat, 3 Jul 2021 17:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 01:16:14.063368
- Title: Neural Granular Sound Synthesis
- Title(参考訳): ニューラルグラニュラー音合成
- Authors: Adrien Bitton, Philippe Esling, Tatsuya Harada
- Abstract要約: グラニュラー音声合成は、小さな波形ウィンドウの並べ替え配列に基づく一般的な音声生成技術である。
生成ニューラルネットワークは、その欠点の大部分を緩和しつつ、粒状合成を実現することができることを示す。
- 参考スコア(独自算出の注目度): 53.828476137089325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Granular sound synthesis is a popular audio generation technique based on
rearranging sequences of small waveform windows. In order to control the
synthesis, all grains in a given corpus are analyzed through a set of acoustic
descriptors. This provides a representation reflecting some form of local
similarities across the grains. However, the quality of this grain space is
bound by that of the descriptors. Its traversal is not continuously invertible
to signal and does not render any structured temporality.
We demonstrate that generative neural networks can implement granular
synthesis while alleviating most of its shortcomings. We efficiently replace
its audio descriptor basis by a probabilistic latent space learned with a
Variational Auto-Encoder. In this setting the learned grain space is
invertible, meaning that we can continuously synthesize sound when traversing
its dimensions. It also implies that original grains are not stored for
synthesis. Another major advantage of our approach is to learn structured paths
inside this latent space by training a higher-level temporal embedding over
arranged grain sequences.
The model can be applied to many types of libraries, including pitched notes
or unpitched drums and environmental noises. We report experiments on the
common granular synthesis processes as well as novel ones such as conditional
sampling and morphing.
- Abstract(参考訳): グラニュラー音声合成は、小さな波形ウィンドウの並べ替え配列に基づく一般的な音声生成技術である。
合成を制御するために、与えられたコーパス内の全ての粒子は音響ディスクリプタのセットを通して分析される。
これは、穀物にまたがるある種の局所的な類似性を反映した表現を提供する。
しかし、この粒子空間の質は記述子によって拘束される。
その軌道は信号に連続的に逆転せず、構造的時間性も示さない。
生成型ニューラルネットワークは,その欠点の多くを軽減しつつ,粒度合成を実装できることを実証する。
可変オートエンコーダで学習した確率的潜在空間に,音声記述子ベースを効率的に置き換える。
この設定では、学習した穀物空間は可逆であり、その次元を横断するときに音を連続的に合成することができる。
また、元の穀物は合成のために保存されていない。
このアプローチのもう一つの大きな利点は、配列された粒配列の上に高レベルな時間的埋め込みを訓練することで、この潜伏空間内の構造化経路を学習することである。
このモデルは、音符や未打楽器、環境騒音など、様々な種類の図書館に適用することができる。
本稿では,共通粒状合成プロセスおよび条件付サンプリングやモルフィングなどの新しいプロセスについて実験を行った。
関連論文リスト
- Neural Architectures Learning Fourier Transforms, Signal Processing and
Much More.... [1.2328446298523066]
音声信号処理アプリケーションにおいて,スクラッチからカーネルを学習する方法を示す。
ニューラルネットワークは正弦波のカーネル形状を学習するだけでなく、あらゆる種類の素晴らしい信号処理特性を発見する。
論文 参考訳(メタデータ) (2023-08-20T23:30:27Z) - Disentanglement in a GAN for Unconditional Speech Synthesis [28.998590651956153]
本研究では,無条件音声合成のための生成的敵対ネットワークであるAudioStyleGANを提案する。
ASGANはサンプリングしたノイズを非絡み合った潜伏ベクトルにマッピングし、次に一連のオーディオ特徴にマッピングすることで、各層で信号エイリアスを抑制する。
小語彙のGoogle Speech Commands digitsデータセットに適用し、非条件音声合成の最先端結果を達成する。
論文 参考訳(メタデータ) (2023-07-04T12:06:07Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - PhaseAug: A Differentiable Augmentation for Speech Synthesis to Simulate
One-to-Many Mapping [0.3277163122167433]
本稿では、各周波数ビンの位相を回転させて1対1のマッピングをシミュレートする、音声合成のための最初の微分可能拡張であるPhaseAugを提案する。
論文 参考訳(メタデータ) (2022-11-08T23:37:05Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。
生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文 参考訳(メタデータ) (2020-08-04T07:08:04Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。