Fugu-MT 論文翻訳(概要): HUI-Audio-Corpus-German: A high quality TTS dataset

論文の概要: HUI-Audio-Corpus-German: A high quality TTS dataset

arxiv url: http://arxiv.org/abs/2106.06309v1
Date: Fri, 11 Jun 2021 10:59:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-14 20:19:09.143994
Title: HUI-Audio-Corpus-German: A high quality TTS dataset
Title（参考訳）: HUI-Audio-Corpus-German: A high quality TTS data
Authors: Pascal Puchtler, Johannes Wirth and Ren\'e Peinl
Abstract要約: HUI-Audio-Corpus-German"は、TTSエンジン用の大規模なオープンソースデータセットで、処理パイプラインで作成されている。このデータセットは、高品質なオーディオから書き起こしアライメントを生成し、作成に必要な手作業を減らす。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The increasing availability of audio data on the internet lead to a multitude of datasets for development and training of text to speech applications, based on neural networks. Highly differing quality of voice, low sampling rates, lack of text normalization and disadvantageous alignment of audio samples to corresponding transcript sentences still limit the performance of deep neural networks trained on this task. Additionally, data resources in languages like German are still very limited. We introduce the "HUI-Audio-Corpus-German", a large, open-source dataset for TTS engines, created with a processing pipeline, which produces high quality audio to transcription alignments and decreases manual effort needed for creation.
Abstract（参考訳）: インターネット上での音声データの可用性の高まりは、ニューラルネットワークに基づいたテキストから音声へのアプリケーションの開発とトレーニングのためのデータセットの多岐にわたる。音声品質の相違、サンプリングレートの低さ、テキスト正規化の欠如、音声サンプルの対応する転写文への不適切なアライメントは、このタスクでトレーニングされたディープニューラルネットワークの性能を制限している。加えて、ドイツ語のような言語のデータ資源は依然として非常に限られている。本稿では,TTSエンジン用の大規模オープンソースデータセットであるHUI-Audio-Corpus-Germanを紹介した。

関連論文リスト

SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models [1.7012324714448024]
SpeechWeaveは、TSモデルをトレーニングするための多言語、ドメイン固有のデータセットの自動生成が可能な合成音声データ生成パイプラインである。我々のアプローチは、TSトレーニングのためのスケーラブルで高品質なデータ生成を可能にし、生成されたデータセットの多様性、正規化、音声一貫性を改善します。
論文参考訳（メタデータ） (2025-09-15T15:11:43Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Fine-tuning Whisper on Low-Resource Languages for Real-World Applications [1.5908667698635532]
非文レベルのデータは、長文音声のパフォーマンスを向上する可能性があるが、著作権法により取得が困難であり、しばしば制限される。我々の手法は、よりアクセスしやすい文レベルのデータを、長文音声を扱うモデルの能力を保持するフォーマットに変換することで、このギャップを埋める。我々のモデルは、未調整のWhisperと、これまでの最先端のスイスのドイツのSTTモデルと比較し、そこでは、我々の新しいモデルはより高いBLEUスコアを達成します。
論文参考訳（メタデータ） (2024-12-20T09:49:02Z)
Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文参考訳（メタデータ） (2024-06-26T07:39:20Z)
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文参考訳（メタデータ） (2024-05-17T21:08:58Z)
Deepfake audio as a data augmentation technique for training automatic speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文参考訳（メタデータ） (2023-09-22T11:33:03Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文参考訳（メタデータ） (2023-03-30T14:07:47Z)
Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文参考訳（メタデータ） (2023-01-30T00:53:50Z)
When Is TTS Augmentation Through a Pivot Language Useful? [26.084140117526488]
我々は,高出力のピボット言語のための訓練されたTSシステムを用いて,ターゲット言語からテキストを実行することによって,合成音声を生成することを提案する。数千の合成TSテキスト音声ペアを使用し、実際のデータを複製して最適な結果を得る。これらの発見の応用は、2つの低リソース言語に対してそれぞれ64.5%と45.0%の文字誤り低減率(CERR)を改善する。
論文参考訳（メタデータ） (2022-07-20T13:33:41Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)
Bootstrap an end-to-end ASR system by multilingual training, transfer learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文参考訳（メタデータ） (2020-11-25T13:11:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。