論文の概要: NeMo Toolbox for Speech Dataset Construction
- arxiv url: http://arxiv.org/abs/2104.04896v1
- Date: Sun, 11 Apr 2021 01:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 06:24:58.236453
- Title: NeMo Toolbox for Speech Dataset Construction
- Title(参考訳): 音声データセット構築のためのNeMoツールボックス
- Authors: Evelina Bakhturina, Vitaly Lavrukhin, Boris Ginsburg
- Abstract要約: 音声データセット構築パイプラインの各ステップに、データ前処理、音声テキストアライメント、データ後処理、フィルタリングを含むツールを開発する。
LibriVoxオーディオブックからロシアのLibriSpeechコーパス(RuLS)を構築し、ツールボックスの効率を実証しました。
- 参考スコア(独自算出の注目度): 11.494290433050624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a new toolbox for constructing speech datasets
from long audio recording and raw reference texts. We develop tools for each
step of the speech dataset construction pipeline including data preprocessing,
audio-text alignment, data post-processing and filtering. The proposed pipeline
also supports human-in-the-loop to address text-audio mismatch issues and
remove samples that don't satisfy the quality requirements. We demonstrated the
toolbox efficiency by building the Russian LibriSpeech corpus (RuLS) from
LibriVox audiobooks. The toolbox is opne sourced in NeMo framework. The RuLS
corpus is released in OpenSLR.
- Abstract(参考訳): 本稿では,長い音声記録と生の参照テキストから音声データセットを構築するための新しいツールボックスを提案する。
音声データセット構築パイプラインの各ステップに、データ前処理、音声テキストアライメント、データ後処理、フィルタリングを含むツールを開発する。
提案するパイプラインは、テキストオーディオのミスマッチ問題に対処するためのヒューマン・イン・ザ・ループをサポートし、品質要件を満たさないサンプルを削除する。
我々は、LibriVoxオーディオブックからRuLS(RubriSpeech corpus)を構築することで、ツールボックス効率を実証した。
ツールボックスはNeMoフレームワークで公開されている。
RuLSコーパスはOpenSLRでリリースされている。
関連論文リスト
- Spontaneous Informal Speech Dataset for Punctuation Restoration [0.8517406772939293]
SponSpeechは、非公式な音声ソースから派生した句読点復元データセットである。
フィルタリングパイプラインは,音声と文字起こしの双方の品質について検討する。
我々はまた、他の文法的に曖昧な句読点を予測するために、音声情報を活用するモデルの能力を評価することを目的とした、挑戦的なテストセットを慎重に構築する。
論文 参考訳(メタデータ) (2024-09-17T14:43:14Z) - MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with
Depth Information [21.864200803678003]
この研究は、64人の中国語話者によって話される12,484発の発声からなる、新しい大規模マンダリンマルチモーダルコーパスであるMAVDを確立する。
データセットがさまざまな実世界のシナリオをカバーすることを保証するため、原文のクリーニングとフィルタリングのためのパイプラインが開発された。
特に、Microsoftの最新のデータ取得デバイスであるAzure Kinectは、データ取得中に従来のオーディオ信号とRGBイメージに加えて、奥行き情報をキャプチャするために使用される。
論文 参考訳(メタデータ) (2023-06-04T05:00:12Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - textless-lib: a Library for Textless Spoken Language Processing [50.070693765984075]
我々はPyTorchベースのライブラリであるtextless-libを紹介した。
ライブラリが提供するビルディングブロックを説明し、そのユーザビリティを実証する。
論文 参考訳(メタデータ) (2022-02-15T12:39:42Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - NeurST: Neural Speech Translation Toolkit [13.68036533544182]
NeurSTは、ByteDance AI Labが開発したニューラルネットワーク翻訳のためのオープンソースのツールキットです。
主にエンドツーエンドの音声翻訳に焦点を当てており、高度な音声翻訳の研究や製品に簡単に使用、修正、拡張できます。
論文 参考訳(メタデータ) (2020-12-18T02:33:58Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。