論文の概要: Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study
- arxiv url: http://arxiv.org/abs/2303.03857v1
- Date: Tue, 7 Mar 2023 12:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 15:21:04.916028
- Title: Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study
- Title(参考訳): 音生成のための事前学習オーディオLDMの活用:ベンチマークによる検討
- Authors: Yi Yuan, Haohe Liu, Jinhua Liang, Xubo Liu, Mark D. Plumbley, Wenwu
Wang
- Abstract要約: 本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
- 参考スコア(独自算出の注目度): 51.42020333199243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have recently achieved breakthroughs in sound
generation. Despite the outstanding sample quality, current sound generation
models face issues on small-scale datasets (e.g., overfitting and low coverage
of sound classes), significantly limiting performance. In this paper, we make
the first attempt to investigate the benefits of pre-training on sound
generation with AudioLDM, the cutting-edge model for audio generation, as the
backbone. Our study demonstrates the advantages of the pre-trained AudioLDM,
especially in data-scarcity scenarios. In addition, the baselines and
evaluation protocol for sound generation systems are not consistent enough to
compare different studies directly. Aiming to facilitate further study on sound
generation tasks, we benchmark the sound generation task on various
frequently-used datasets. We hope our results on transfer learning and
benchmarks can provide references for further research on conditional sound
generation.
- Abstract(参考訳): ディープニューラルネットワークは、最近、音声生成のブレークスルーを達成した。
優れたサンプル品質にもかかわらず、現在の音響生成モデルは、小規模データセット(例えば、過度に適合し、音のクラスの範囲が低くなる)で問題に直面し、性能を著しく制限する。
本稿では,音声生成のための最先端モデルである audioldm をバックボーンとして,音声生成の事前学習の利点を検討する最初の試みを行う。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
さらに,音響システムにおけるベースラインと評価プロトコルは,異なる研究を直接比較するには不十分である。
音声生成タスクのさらなる研究を促進するため,様々な頻繁なデータセット上で音生成タスクをベンチマークする。
我々は,移動学習とベンチマークの結果が,条件付き音声生成のさらなる研究の参考になることを期待している。
関連論文リスト
- Self-Supervised Visual Acoustic Matching [83.5866072670635]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Feature-Rich Audio Model Inversion for Data-Free Knowledge Distillation
Towards General Sound Classification [23.35582432472955]
一般音響分類タスクのためのデータフリー知識蒸留フレームワークである機能リッチオーディオモデルインバージョン(FRAMI)を提案する。
Urbansound8k、ESC-50、AudioMNISTデータセットの実験結果は、FRAMIが機能豊富なサンプルを生成することを実証している。
論文 参考訳(メタデータ) (2023-03-14T06:04:19Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - ASiT: Audio Spectrogram vIsion Transformer for General Audio
Representation [67.78880574132924]
汎用音声表現のための自己教師型トランスフォーマであるASiTを提案する。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
提案したASiTフレームワークは,すべてのタスクのパフォーマンスを大幅に向上させ,5つの音声および音声の分類タスクに対して,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - Conditional Sound Generation Using Neural Discrete Time-Frequency
Representation Learning [42.95813372611093]
本稿では,ニューラル離散時間周波数表現学習を用いて,音のクラスに調和した音を生成することを提案する。
これにより、長い範囲の依存関係をモデル化し、音クリップ内に局所的なきめ細かい構造を保持するという利点がある。
論文 参考訳(メタデータ) (2021-07-21T10:31:28Z) - Noise Robust TTS for Low Resource Speakers using Pre-trained Model and
Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。
実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-26T06:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。