論文の概要: SpecSinGAN: Sound Effect Variation Synthesis Using Single-Image GANs
- arxiv url: http://arxiv.org/abs/2110.07311v1
- Date: Thu, 14 Oct 2021 12:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 15:28:08.720845
- Title: SpecSinGAN: Sound Effect Variation Synthesis Using Single-Image GANs
- Title(参考訳): SpecSinGAN:単一画像ガンを用いた音響効果変動合成
- Authors: Adri\'an Barahona-R\'ios, Tom Collins
- Abstract要約: 単一画像生成敵ネットワークは、単一のトレーニング例の内部分布から学習し、そのバリエーションを生成する。
SpecSinGANはワンショットのサウンド効果を1つ受け取り、まるで同じレコーディングセッションと異なるテイクであるかのように、その新しいバリエーションを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-image generative adversarial networks learn from the internal
distribution of a single training example to generate variations of it,
removing the need of a large dataset. In this paper we introduce SpecSinGAN, an
unconditional generative architecture that takes a single one-shot sound effect
(e.g., a footstep; a character jump) and produces novel variations of it, as if
they were different takes from the same recording session. We explore the use
of multi-channel spectrograms to train the model on the various layers that
comprise a single sound effect. A listening study comparing our model to real
recordings and to digital signal processing procedural audio models in terms of
sound plausibility and variation revealed that SpecSinGAN is more plausible and
varied than the procedural audio models considered, when using multi-channel
spectrograms. Sound examples can be found at the project website:
https://www.adrianbarahonarios.com/specsingan/
- Abstract(参考訳): 単一画像生成逆数ネットワークは、単一のトレーニング例の内部分布から学習し、そのバリエーションを生成し、大規模なデータセットの必要性を取り除く。
本稿では,一対一の音効果(例えば,フットステップ,キャラクタジャンプ)と,同一の録音セッションとは全く異なるような新しいバリエーションを生成する無条件生成アーキテクチャであるSpecSinGANを紹介する。
本研究では,マルチチャネルスペクトログラムを用いて,単一音響効果を構成する様々なレイヤのモデルを学習する。
本モデルと実記録およびディジタル信号処理方式の音声モデルを比較した聞き取り調査の結果,マルチチャネルスペクトログラムを用いた場合,スペックシンガンは検討したプロシーデュラルオーディオモデルよりも多様で多様であることが判明した。
例はプロジェクトのWebサイト(https://www.adrianbarahonarios.com/specsingan/)で見ることができる。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Sampling-Frequency-Independent Audio Source Separation Using Convolution
Layer Based on Impulse Invariant Method [67.24600975813419]
単一深層ニューラルネットワークを用いて任意のサンプリング周波数を処理できる畳み込み層を提案する。
提案層の導入により,従来の音源分離モデルが未知のサンプリング周波数でも一貫して動作できることを示した。
論文 参考訳(メタデータ) (2021-05-10T02:33:42Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - MTCRNN: A multi-scale RNN for directed audio texture synthesis [0.0]
本稿では,異なる抽象レベルで訓練された繰り返しニューラルネットワークと,ユーザ指向の合成を可能にする条件付け戦略を組み合わせたテクスチャのモデリング手法を提案する。
モデルの性能を様々なデータセットで実証し、その性能を様々なメトリクスで検証し、潜在的なアプリケーションについて議論する。
論文 参考訳(メタデータ) (2020-11-25T09:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。