論文の概要: Generative Data Augmentation Challenge: Zero-Shot Speech Synthesis for Personalized Speech Enhancement
- arxiv url: http://arxiv.org/abs/2501.13372v1
- Date: Thu, 23 Jan 2025 04:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:30.789870
- Title: Generative Data Augmentation Challenge: Zero-Shot Speech Synthesis for Personalized Speech Enhancement
- Title(参考訳): 生成データ強化チャレンジ:パーソナライズされた音声強調のためのゼロショット音声合成
- Authors: Jae-Sung Bae, Anastasia Kuznetsova, Dinesh Manocha, John Hershey, Trausti Kristjansson, Minje Kim,
- Abstract要約: 本稿では、下流タスクのための音声データ、パーソナライズされた音声強調(PSE)を強化するために、ゼロショット音声合成(TTS)システムを要求する新しい課題を提案する。
ゼロショットTSモデルによって生成された拡張データの質がPSEモデルの性能にどのように影響するかを検討することを目的とする。
- 参考スコア(独自算出の注目度): 54.51467153859695
- License:
- Abstract: This paper presents a new challenge that calls for zero-shot text-to-speech (TTS) systems to augment speech data for the downstream task, personalized speech enhancement (PSE), as part of the Generative Data Augmentation workshop at ICASSP 2025. Collecting high-quality personalized data is challenging due to privacy concerns and technical difficulties in recording audio from the test scene. To address these issues, synthetic data generation using generative models has gained significant attention. In this challenge, participants are tasked first with building zero-shot TTS systems to augment personalized data. Subsequently, PSE systems are asked to be trained with this augmented personalized dataset. Through this challenge, we aim to investigate how the quality of augmented data generated by zero-shot TTS models affects PSE model performance. We also provide baseline experiments using open-source zero-shot TTS models to encourage participation and benchmark advancements. Our baseline code implementation and checkpoints are available online.
- Abstract(参考訳): 本稿では,ICASSP 2025におけるジェネレーティブデータ強化ワークショップの一環として,ダウンストリームタスクのための音声データ,パーソナライズされた音声強調(PSE)をゼロショット音声合成(TTS)システムに要求する新たな課題を提案する。
高品質なパーソナライズされたデータを収集することは、プライバシの懸念と、テストシーンからオーディオを録音する技術的な困難のために難しい。
これらの問題に対処するため、生成モデルを用いた合成データ生成が注目されている。
この課題では、参加者はまず、パーソナライズされたデータを増やすため、ゼロショットのTSシステムを構築する。
その後、PSEシステムは、このパーソナライズされたデータセットでトレーニングされることが求められる。
この課題を通じて、ゼロショットTSモデルによって生成された拡張データの質がPSEモデルの性能にどのように影響するかを検討することを目的とする。
また、オープンソースのゼロショットTSモデルを用いたベースライン実験を行い、参加とベンチマークの進歩を奨励する。
私たちのベースラインのコード実装とチェックポイントはオンラインで利用可能です。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Speech Emotion Recognition under Resource Constraints with Data Distillation [64.36799373890916]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。
モノのインターネットにおけるエッジデバイスの出現は、複雑なディープラーニングモデルを構築する上での課題を示している。
本研究では,IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするためのデータ蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T13:10:46Z) - Multi-speaker Text-to-speech Training with Speaker Anonymized Data [40.70515431989197]
話者匿名化(SA)を行ったデータを用いたマルチ話者テキスト音声(TTS)モデルの訓練について検討する。
2つの信号処理ベースと3つのディープニューラルネットワークベースSAメソッドを使用して、マルチスピーカーTSデータセットであるVCTKを匿名化した。
我々は、匿名化されたトレーニングデータと、これらのデータを用いてトレーニングされた下流TSモデルの性能を評価するために、広範囲な客観的および主観的な実験を行った。
論文 参考訳(メタデータ) (2024-05-20T03:55:44Z) - An Automated End-to-End Open-Source Software for High-Quality
Text-to-Speech Dataset Generation [3.6893151241749966]
本稿では,テキスト音声(TTS)モデルのための高品質なデータセットを生成するエンドツーエンドツールを提案する。
言語固有の音素分布をサンプル選択に統合する。
提案するアプリケーションは,これらの機能を通じて,TSモデルのデータセット作成プロセスを合理化することを目的としている。
論文 参考訳(メタデータ) (2024-02-26T07:58:33Z) - Comparative Analysis of Transfer Learning in Deep Learning
Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset [10.119929769316565]
この論文は、トレーニング時間が少なく、データサンプルが少なく、高品質な音声出力が得られるTSモデルを見つける必要があることの根底にある。
この研究は、徹底的な技術分析を通じて、TTSの最先端のモデル伝達学習能力を評価する。
その後、制約付きデータセットにおけるモデルのパフォーマンスを比較するために、ハンズオンの実験分析を行う。
論文 参考訳(メタデータ) (2023-10-08T03:08:25Z) - ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT [2.320417845168326]
本稿では,大規模な生成言語モデルであるChatGPTから得られたデータを用いて,低リソースシナリオにおけるデータ拡張を目的とした合成トレーニングデータを生成する。
タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:07:29Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Sequence-to-sequence Singing Voice Synthesis with Perceptual Entropy
Loss [49.62291237343537]
本稿では,心理音響聴覚モデルから得られた知覚エントロピー(PE)損失をネットワークの正規化のために提案する。
1時間のオープンソース歌唱音声データベースを用いて,PE損失が各種主流系列列列モデルに与える影響について検討する。
論文 参考訳(メタデータ) (2020-10-22T20:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。