Fugu-MT 論文翻訳(概要): Neural Granular Sound Synthesis

論文の概要: Neural Granular Sound Synthesis

arxiv url: http://arxiv.org/abs/2008.01393v3
Date: Sat, 3 Jul 2021 17:26:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-03 01:16:14.063368
Title: Neural Granular Sound Synthesis
Title（参考訳）: ニューラルグラニュラー音合成
Authors: Adrien Bitton, Philippe Esling, Tatsuya Harada
Abstract要約: グラニュラー音声合成は、小さな波形ウィンドウの並べ替え配列に基づく一般的な音声生成技術である。生成ニューラルネットワークは、その欠点の大部分を緩和しつつ、粒状合成を実現することができることを示す。
参考スコア（独自算出の注目度）: 53.828476137089325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Granular sound synthesis is a popular audio generation technique based on rearranging sequences of small waveform windows. In order to control the synthesis, all grains in a given corpus are analyzed through a set of acoustic descriptors. This provides a representation reflecting some form of local similarities across the grains. However, the quality of this grain space is bound by that of the descriptors. Its traversal is not continuously invertible to signal and does not render any structured temporality. We demonstrate that generative neural networks can implement granular synthesis while alleviating most of its shortcomings. We efficiently replace its audio descriptor basis by a probabilistic latent space learned with a Variational Auto-Encoder. In this setting the learned grain space is invertible, meaning that we can continuously synthesize sound when traversing its dimensions. It also implies that original grains are not stored for synthesis. Another major advantage of our approach is to learn structured paths inside this latent space by training a higher-level temporal embedding over arranged grain sequences. The model can be applied to many types of libraries, including pitched notes or unpitched drums and environmental noises. We report experiments on the common granular synthesis processes as well as novel ones such as conditional sampling and morphing.
Abstract（参考訳）: グラニュラー音声合成は、小さな波形ウィンドウの並べ替え配列に基づく一般的な音声生成技術である。合成を制御するために、与えられたコーパス内の全ての粒子は音響ディスクリプタのセットを通して分析される。これは、穀物にまたがるある種の局所的な類似性を反映した表現を提供する。しかし、この粒子空間の質は記述子によって拘束される。その軌道は信号に連続的に逆転せず、構造的時間性も示さない。生成型ニューラルネットワークは,その欠点の多くを軽減しつつ,粒度合成を実装できることを実証する。可変オートエンコーダで学習した確率的潜在空間に,音声記述子ベースを効率的に置き換える。この設定では、学習した穀物空間は可逆であり、その次元を横断するときに音を連続的に合成することができる。また、元の穀物は合成のために保存されていない。このアプローチのもう一つの大きな利点は、配列された粒配列の上に高レベルな時間的埋め込みを訓練することで、この潜伏空間内の構造化経路を学習することである。このモデルは、音符や未打楽器、環境騒音など、様々な種類の図書館に適用することができる。本稿では,共通粒状合成プロセスおよび条件付サンプリングやモルフィングなどの新しいプロセスについて実験を行った。

関連論文リスト

Latent Granular Resynthesis using Neural Audio Codecs [0.0]
本稿では,潜在ベクトルレベルでの粒状合成の概念を再構築することで,創造的な音声再生を実現する新しい手法を提案する。提案手法は,ソース音声コーパスを潜在ベクトルセグメントに符号化し,ターゲット音声信号の各潜在粒度をコードブックに最も近いものとマッチングすることにより,"粒状コードブック"を作成する。得られたハイブリッドシーケンスをデコードして、ソースの音節特性を採用しながら、ターゲットの時間構造を保存するオーディオを生成する。
論文参考訳（メタデータ） (2025-07-25T12:14:12Z)
Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文参考訳（メタデータ） (2024-11-14T03:57:21Z)
A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation [65.05719674893999]
トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
論文参考訳（メタデータ） (2024-10-29T18:29:39Z)
Contrastive Learning from Synthetic Audio Doppelgängers [1.3754952818114714]
合成音声を利用したデータスケールと変換の制限に対する解決策を提案する。音声合成器のパラメータをランダムに摂動することで、音色、ピッチ、時間的エンベロープの因果的に操作された変化を持つオーディオ・ドッペルグ・アンガー合成正ペアを生成する。ランダムに生成される合成データへのシフトにもかかわらず、本手法は、複数の標準的な音声分類タスクにおいて、実データよりも優れた、強力な表現を生成する。
論文参考訳（メタデータ） (2024-06-09T21:44:06Z)
SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-16T12:22:41Z)
Neural Architectures Learning Fourier Transforms, Signal Processing and Much More.... [1.2328446298523066]
音声信号処理アプリケーションにおいて,スクラッチからカーネルを学習する方法を示す。ニューラルネットワークは正弦波のカーネル形状を学習するだけでなく、あらゆる種類の素晴らしい信号処理特性を発見する。
論文参考訳（メタデータ） (2023-08-20T23:30:27Z)
Disentanglement in a GAN for Unconditional Speech Synthesis [28.998590651956153]
本研究では,無条件音声合成のための生成的敵対ネットワークであるAudioStyleGANを提案する。 ASGANはサンプリングしたノイズを非絡み合った潜伏ベクトルにマッピングし、次に一連のオーディオ特徴にマッピングすることで、各層で信号エイリアスを抑制する。小語彙のGoogle Speech Commands digitsデータセットに適用し、非条件音声合成の最先端結果を達成する。
論文参考訳（メタデータ） (2023-07-04T12:06:07Z)
PhaseAug: A Differentiable Augmentation for Speech Synthesis to Simulate One-to-Many Mapping [0.3277163122167433]
本稿では、各周波数ビンの位相を回転させて1対1のマッピングをシミュレートする、音声合成のための最初の微分可能拡張であるPhaseAugを提案する。
論文参考訳（メタデータ） (2022-11-08T23:37:05Z)
Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文参考訳（メタデータ） (2020-08-07T11:48:05Z)
Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文参考訳（メタデータ） (2020-08-04T07:08:04Z)
Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文参考訳（メタデータ） (2020-07-13T12:35:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。