論文の概要: Neural Synthesis of Footsteps Sound Effects with Generative Adversarial
Networks
- arxiv url: http://arxiv.org/abs/2110.09605v1
- Date: Mon, 18 Oct 2021 20:04:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 03:25:08.814866
- Title: Neural Synthesis of Footsteps Sound Effects with Generative Adversarial
Networks
- Title(参考訳): 生成的対向ネットワークを用いた足音効果のニューラル合成
- Authors: Marco Comunit\`a, Huy Phan, Joshua D. Reiss
- Abstract要約: 本稿では,フットステップ音響効果にニューラル合成を適用した最初の試みについて述べる。
私たちのアーキテクチャは、記録されたサンプルと同じくらいのリアリズムスコアに達し、励ましの結果を示しました。
- 参考スコア(独自算出の注目度): 14.78990136075145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Footsteps are among the most ubiquitous sound effects in multimedia
applications. There is substantial research into understanding the acoustic
features and developing synthesis models for footstep sound effects. In this
paper, we present a first attempt at adopting neural synthesis for this task.
We implemented two GAN-based architectures and compared the results with real
recordings as well as six traditional sound synthesis methods. Our
architectures reached realism scores as high as recorded samples, showing
encouraging results for the task at hand.
- Abstract(参考訳): フットステップはマルチメディアアプリケーションで最もユビキタスな音効果の一つである。
音響的特徴の理解とフットステップ音響効果の合成モデルの開発には,かなりの研究がある。
本稿では,本課題にニューラルシンセシスを適用した最初の試みを提案する。
GANアーキテクチャを2つ実装し、実際の録音結果と従来の6つの音声合成手法を比較した。
私たちのアーキテクチャは、記録されたサンプルよりも高いリアリズムスコアに達しました。
関連論文リスト
- End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:59:53Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Rigid-Body Sound Synthesis with Differentiable Modal Resonators [6.680437329908454]
本稿では,深層ニューラルネットワークを訓練し,与えられた2次元形状と材料に対するモーダル共振器を生成するための,新しいエンドツーエンドフレームワークを提案する。
合成対象のデータセット上で本手法を実証するが,音声領域の目的を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-10-27T10:34:38Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Learning Joint Articulatory-Acoustic Representations with Normalizing
Flows [7.183132975698293]
可逆ニューラルネットワークモデルを用いて母音の調音領域と音響領域の結合潜時表現を求める。
提案手法は調音から音響へのマッピングと音響から調音へのマッピングの両方を実現し,両領域の同時符号化の実現に成功していることを示す。
論文 参考訳(メタデータ) (2020-05-16T04:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。