論文の概要: Towards the Synthesis of Non-speech Vocalizations
- arxiv url: http://arxiv.org/abs/2410.09360v1
- Date: Sat, 12 Oct 2024 04:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:53:51.656013
- Title: Towards the Synthesis of Non-speech Vocalizations
- Title(参考訳): 非音声ボカライゼーションの合成に向けて
- Authors: Enjamamul Hoq, Ifeoma Nwogu,
- Abstract要約: DiffWave フレームワークを用いて,幼児の泣き声を無条件に生成することに焦点を当てた。
Baby ChillantoとDeBarbaro cryデータセットの2つの異なるデータセットを使用します。
これらのデータセットは、DiffWaveモデルをトレーニングして、高い忠実度と多様性を維持する新しい泣き音を生成するために使用される。
- 参考スコア(独自算出の注目度): 1.5039745292757674
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this report, we focus on the unconditional generation of infant cry sounds using the DiffWave framework, which has shown great promise in generating high-quality audio from noise. We use two distinct datasets of infant cries: the Baby Chillanto and the deBarbaro cry dataset. These datasets are used to train the DiffWave model to generate new cry sounds that maintain high fidelity and diversity. The focus here is on DiffWave's capability to handle the unconditional generation task.
- Abstract(参考訳): 本稿では,DiffWaveフレームワークを用いた幼児の泣き声の無条件生成に着目し,ノイズから高品質な音声を生成できることを示す。
乳児の泣き声のデータセットはBaby ChillantoとDeBarbaro cryデータセットの2つです。
これらのデータセットは、DiffWaveモデルをトレーニングして、高い忠実度と多様性を維持する新しい泣き音を生成するために使用される。
ここでの焦点は、条件のない生成タスクを処理するDiffWaveの機能である。
関連論文リスト
- SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Detection of Children Abuse by Voice and Audio Classification by
Short-Time Fourier Transform Machine Learning implemented on Nvidia Edge GPU
device [0.0]
この実験は、機械学習を使って子供の声を分類し、認識する。
子供が泣き叫んだり叫んだりすると、直ちに関連する職員に警告が送られる。
論文 参考訳(メタデータ) (2023-07-27T16:48:19Z) - CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds [32.927514978829414]
786人の新生児から手動で発声した6時間以上の涙音を学術的に利用した。
最高性能のシステムは25.8%の誤差率で大幅な改善を達成した。
このデータセットにはさらなる研究の余地があり、検証タスクを超えて拡張される可能性がある。
論文 参考訳(メタデータ) (2023-05-01T17:56:32Z) - DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven
Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。
本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。
我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文 参考訳(メタデータ) (2023-01-10T05:11:25Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - Visualizations of Complex Sequences of Family-Infant Vocalizations Using
Bag-of-Audio-Words Approach Based on Wav2vec 2.0 Features [41.07344746812834]
米国では、2-8歳の子供の約15-17%が、少なくとも1つの精神、行動、発達障害を診断していると推定されている。
これまでの研究では、携帯電話、ビデオ、LENAのような音声のみの記録装置を用いて収集された幼児および/または親の発声の分類において、高度なMLモデルが優れていることが示されている。
我々は、wav2vec 2.0機能を持つbaba-of-audio-words法を用いて、家族と幼児の発声相互作用を理解するための高レベルな可視化を作成する。
論文 参考訳(メタデータ) (2022-03-29T01:46:14Z) - Chord-Conditioned Melody Choralization with Controllable Harmonicity and
Polyphonicity [75.02344976811062]
メロディ合唱(メロディの合唱)、すなわちユーザ・ギヴン・メロディに基づく4パートの合唱は、長い間J.S.バッハ合唱と密接に関連していた。
以前のニューラルネットワークベースのシステムは、コード進行を前提としたコラール生成にはほとんど注目しなかった。
コード進行に条件付きメロディのための4パート合唱を生成できるメロディ合唱システムであるDeepChoirを提案する。
論文 参考訳(メタデータ) (2022-02-17T02:59:36Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。