論文の概要: Neural Granular Sound Synthesis
- arxiv url: http://arxiv.org/abs/2008.01393v3
- Date: Sat, 3 Jul 2021 17:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 01:16:14.063368
- Title: Neural Granular Sound Synthesis
- Title(参考訳): ニューラルグラニュラー音合成
- Authors: Adrien Bitton, Philippe Esling, Tatsuya Harada
- Abstract要約: グラニュラー音声合成は、小さな波形ウィンドウの並べ替え配列に基づく一般的な音声生成技術である。
生成ニューラルネットワークは、その欠点の大部分を緩和しつつ、粒状合成を実現することができることを示す。
- 参考スコア(独自算出の注目度): 53.828476137089325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Granular sound synthesis is a popular audio generation technique based on
rearranging sequences of small waveform windows. In order to control the
synthesis, all grains in a given corpus are analyzed through a set of acoustic
descriptors. This provides a representation reflecting some form of local
similarities across the grains. However, the quality of this grain space is
bound by that of the descriptors. Its traversal is not continuously invertible
to signal and does not render any structured temporality.
We demonstrate that generative neural networks can implement granular
synthesis while alleviating most of its shortcomings. We efficiently replace
its audio descriptor basis by a probabilistic latent space learned with a
Variational Auto-Encoder. In this setting the learned grain space is
invertible, meaning that we can continuously synthesize sound when traversing
its dimensions. It also implies that original grains are not stored for
synthesis. Another major advantage of our approach is to learn structured paths
inside this latent space by training a higher-level temporal embedding over
arranged grain sequences.
The model can be applied to many types of libraries, including pitched notes
or unpitched drums and environmental noises. We report experiments on the
common granular synthesis processes as well as novel ones such as conditional
sampling and morphing.
- Abstract(参考訳): グラニュラー音声合成は、小さな波形ウィンドウの並べ替え配列に基づく一般的な音声生成技術である。
合成を制御するために、与えられたコーパス内の全ての粒子は音響ディスクリプタのセットを通して分析される。
これは、穀物にまたがるある種の局所的な類似性を反映した表現を提供する。
しかし、この粒子空間の質は記述子によって拘束される。
その軌道は信号に連続的に逆転せず、構造的時間性も示さない。
生成型ニューラルネットワークは,その欠点の多くを軽減しつつ,粒度合成を実装できることを実証する。
可変オートエンコーダで学習した確率的潜在空間に,音声記述子ベースを効率的に置き換える。
この設定では、学習した穀物空間は可逆であり、その次元を横断するときに音を連続的に合成することができる。
また、元の穀物は合成のために保存されていない。
このアプローチのもう一つの大きな利点は、配列された粒配列の上に高レベルな時間的埋め込みを訓練することで、この潜伏空間内の構造化経路を学習することである。
このモデルは、音符や未打楽器、環境騒音など、様々な種類の図書館に適用することができる。
本稿では,共通粒状合成プロセスおよび条件付サンプリングやモルフィングなどの新しいプロセスについて実験を行った。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation [65.05719674893999]
トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。
異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2024-10-29T18:29:39Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Neural Architectures Learning Fourier Transforms, Signal Processing and
Much More.... [1.2328446298523066]
音声信号処理アプリケーションにおいて,スクラッチからカーネルを学習する方法を示す。
ニューラルネットワークは正弦波のカーネル形状を学習するだけでなく、あらゆる種類の素晴らしい信号処理特性を発見する。
論文 参考訳(メタデータ) (2023-08-20T23:30:27Z) - Disentanglement in a GAN for Unconditional Speech Synthesis [28.998590651956153]
本研究では,無条件音声合成のための生成的敵対ネットワークであるAudioStyleGANを提案する。
ASGANはサンプリングしたノイズを非絡み合った潜伏ベクトルにマッピングし、次に一連のオーディオ特徴にマッピングすることで、各層で信号エイリアスを抑制する。
小語彙のGoogle Speech Commands digitsデータセットに適用し、非条件音声合成の最先端結果を達成する。
論文 参考訳(メタデータ) (2023-07-04T12:06:07Z) - PhaseAug: A Differentiable Augmentation for Speech Synthesis to Simulate
One-to-Many Mapping [0.3277163122167433]
本稿では、各周波数ビンの位相を回転させて1対1のマッピングをシミュレートする、音声合成のための最初の微分可能拡張であるPhaseAugを提案する。
論文 参考訳(メタデータ) (2022-11-08T23:37:05Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。
生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文 参考訳(メタデータ) (2020-08-04T07:08:04Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。