論文の概要: Conditional Sound Generation Using Neural Discrete Time-Frequency
Representation Learning
- arxiv url: http://arxiv.org/abs/2107.09998v1
- Date: Wed, 21 Jul 2021 10:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:06:09.301465
- Title: Conditional Sound Generation Using Neural Discrete Time-Frequency
Representation Learning
- Title(参考訳): ニューラル離散時間周波数表現学習を用いた条件音生成
- Authors: Xubo Liu, Turab Iqbal, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley,
Wenwu Wang
- Abstract要約: 本稿では,ニューラル離散時間周波数表現学習を用いて,音のクラスに調和した音を生成することを提案する。
これにより、長い範囲の依存関係をモデル化し、音クリップ内に局所的なきめ細かい構造を保持するという利点がある。
- 参考スコア(独自算出の注目度): 42.95813372611093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models have recently achieved impressive performance in
speech synthesis and music generation. However, compared to the generation of
those domain-specific sounds, the generation of general sounds (such as car
horn, dog barking, and gun shot) has received less attention, despite their
wide potential applications. In our previous work, sounds are generated in the
time domain using SampleRNN. However, it is difficult to capture long-range
dependencies within sound recordings using this method. In this work, we
propose to generate sounds conditioned on sound classes via neural discrete
time-frequency representation learning. This offers an advantage in modelling
long-range dependencies and retaining local fine-grained structure within a
sound clip. We evaluate our proposed approach on the UrbanSound8K dataset, as
compared to a SampleRNN baseline, with the performance metrics measuring the
quality and diversity of the generated sound samples. Experimental results show
that our proposed method offers significantly better performance in diversity
and comparable performance in quality, as compared to the baseline method.
- Abstract(参考訳): 深層生成モデルは近年,音声合成と音楽生成において顕著な性能を達成している。
しかし、それらドメイン固有の音の生成と比較すると、一般的な音(カーホーン、犬の鳴き声、銃声など)の生成は、幅広い応用可能性にもかかわらず、あまり注目されていない。
前回の研究では、SampleRNNを使用して時間領域で音が生成される。
しかし、この方法では録音中の長距離依存性を捉えることは困難である。
本研究では,ニューラル離散時間周波数表現学習を用いて,音のクラスに調和した音を生成することを提案する。
これにより、長距離依存性のモデル化や、サウンドクリップ内の局所的なきめ細かな構造保持にメリットがある。
本研究では,提案手法であるurbansound8kデータセットを,sampernnベースラインと比較し,生成音の質と多様性を計測する性能指標を用いて評価した。
実験の結果,提案手法はベースライン法と比較して,多様性と品質の同等の性能が有意に向上することがわかった。
関連論文リスト
- DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - Neural Waveshaping Synthesis [0.0]
ニューラルオーディオ合成に対する,新しい,軽量で完全な因果的アプローチを提案する。
ニューラルウェーブシェイピングユニット(NEWT)は、波形領域で直接動作する。
入力信号と出力信号の単純なアフィン変換によって複雑な鼓膜進化を生成する。
論文 参考訳(メタデータ) (2021-07-11T13:50:59Z) - CRASH: Raw Audio Score-based Generative Modeling for Controllable
High-resolution Drum Sound Synthesis [0.0]
非条件生音声合成のための新しいスコアベース生成モデルを提案する。
提案手法は,よりフレキシブルな生成機能を提供しながら,生音声におけるGANベースの手法とのギャップを埋める。
論文 参考訳(メタデータ) (2021-06-14T13:48:03Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Learning to Denoise Historical Music [30.165194151843835]
そこで我々は,古い録音を聴くことを学習する音声から音声へのニューラルネットモデルを提案する。
ネットワークは、ノイズの多い音楽データセット上で、再構成と敵の目的の両方で訓練される。
提案手法は,原曲の品質と詳細を保存しながら,ノイズ除去に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-05T10:05:44Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。