論文の概要: MTCRNN: A multi-scale RNN for directed audio texture synthesis
- arxiv url: http://arxiv.org/abs/2011.12596v1
- Date: Wed, 25 Nov 2020 09:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 03:50:20.956454
- Title: MTCRNN: A multi-scale RNN for directed audio texture synthesis
- Title(参考訳): MTCRNN:指向型音声テクスチャ合成のためのマルチスケールRNN
- Authors: M. Huzaifah, L. Wyse
- Abstract要約: 本稿では,異なる抽象レベルで訓練された繰り返しニューラルネットワークと,ユーザ指向の合成を可能にする条件付け戦略を組み合わせたテクスチャのモデリング手法を提案する。
モデルの性能を様々なデータセットで実証し、その性能を様々なメトリクスで検証し、潜在的なアプリケーションについて議論する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Audio textures are a subset of environmental sounds, often defined as having
stable statistical characteristics within an adequately large window of time
but may be unstructured locally. They include common everyday sounds such as
from rain, wind, and engines. Given that these complex sounds contain patterns
on multiple timescales, they are a challenge to model with traditional methods.
We introduce a novel modelling approach for textures, combining recurrent
neural networks trained at different levels of abstraction with a conditioning
strategy that allows for user-directed synthesis. We demonstrate the model's
performance on a variety of datasets, examine its performance on various
metrics, and discuss some potential applications.
- Abstract(参考訳): オーディオテクスチャは環境音のサブセットであり、しばしば適切な時間枠内で安定した統計特性を持つと定義されるが、局所的に非構造化されることがある。
雨、風、エンジンなどの日常的な音を含んでいる。
これらの複雑な音が複数の時間スケールでパターンを含んでいることを考えると、従来の手法でモデル化するのは困難である。
本稿では,異なる抽象レベルで訓練された繰り返しニューラルネットワークと,ユーザ指向の合成を可能にする条件付け戦略を組み合わせたテクスチャのモデリング手法を提案する。
モデルの性能を様々なデータセットで実証し、その性能を様々なメトリクスで検証し、潜在的なアプリケーションについて議論する。
関連論文リスト
- Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - Learning in a Single Domain for Non-Stationary Multi-Texture Synthesis [9.213030142986417]
非定常テクスチャは大規模な分散を持ち、1つのモデルではほとんど合成できない。
様々なスケールの構造パターンを捕捉し,テクスチャを低コストで効果的に合成するマルチスケールジェネレータを提案する。
特定のドメインのテクスチャパターンの学習に焦点をあてるカテゴリ特化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-10T14:32:21Z) - Rigid-Body Sound Synthesis with Differentiable Modal Resonators [6.680437329908454]
本稿では,深層ニューラルネットワークを訓練し,与えられた2次元形状と材料に対するモーダル共振器を生成するための,新しいエンドツーエンドフレームワークを提案する。
合成対象のデータセット上で本手法を実証するが,音声領域の目的を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-10-27T10:34:38Z) - Efficiently Trained Low-Resource Mongolian Text-to-Speech System Based
On FullConv-TTS [0.0]
本稿では,RNN成分(繰り返し単位)を用いない深層畳み込みニューラルネットワークに基づく音声合成システムを提案する。
同時に、時間ワープ、周波数マスク、時間マスクといった一連のデータ拡張手法により、モデルの汎用性とロバスト性を向上する。
最後に, CNN コンポーネントのみを用いた TTS モデルは,Tacotron などの古典的 TTS モデルと比較してトレーニング時間を短縮できることを示した。
論文 参考訳(メタデータ) (2022-10-24T14:18:43Z) - Adversarial Audio Synthesis with Complex-valued Polynomial Networks [60.231877895663956]
音声における時間周波数(TF)表現は、実数値ネットワークとしてますますモデル化されている。
我々は,このような複雑な数値表現を自然な方法で統合するAPOLLOと呼ばれる複雑な数値ネットワークを導入する。
APOLLOは、音声生成におけるSC09の最先端拡散モデルよりも17.5%$改善され、8.2%ドルとなる。
論文 参考訳(メタデータ) (2022-06-14T12:58:59Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。