論文の概要: Construction of a Large-scale Japanese ASR Corpus on TV Recordings
- arxiv url: http://arxiv.org/abs/2103.14736v1
- Date: Fri, 26 Mar 2021 21:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:44:17.340252
- Title: Construction of a Large-scale Japanese ASR Corpus on TV Recordings
- Title(参考訳): テレビ録画における大規模asrコーパスの構築
- Authors: Shintaro Ando, Hiromasa Fujihara
- Abstract要約: 本稿では,音声認識システム(ASR)を学習するための大規模日本語コーパスを提案する。
このコーパスには2000時間以上のスピーチと、日本のテレビの録音とその字幕に書かれた書き起こしが含まれている。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new large-scale Japanese speech corpus for training
automatic speech recognition (ASR) systems. This corpus contains over 2,000
hours of speech with transcripts built on Japanese TV recordings and their
subtitles. We develop herein an iterative workflow to extract matching audio
and subtitle segments from TV recordings based on a conventional method for
lightly-supervised audio-to-text alignment. We evaluate a model trained with
our corpus using an evaluation dataset built on Japanese TEDx presentation
videos and confirm that the performance is better than that trained with the
Corpus of Spontaneous Japanese (CSJ). The experiment results show the
usefulness of our corpus for training ASR systems. This corpus is made public
for the research community along with Kaldi scripts for training the models
reported in this paper.
- Abstract(参考訳): 本稿では,音声認識システム(ASR)を学習するための大規模日本語コーパスを提案する。
このコーパスには2000時間以上のスピーチと、日本のテレビの録音とその字幕に書かれた書き起こしが含まれている。
本稿では,従来の教師付き音声対テキストアライメント法に基づいて,テレビ録画からオーディオと字幕のマッチングセグメントを抽出する反復ワークフローを開発した。
日本語tedxプレゼンテーションビデオに構築した評価データセットを用いてコーパスで学習したモデルを評価し,自発的な日本語コーパス(csj)で学習したコーパスよりもパフォーマンスが優れていることを確認した。
実験の結果,ASRシステムの訓練におけるコーパスの有用性が示された。
このコーパスは、本論文で報告されたモデルをトレーニングするためのkaldiスクリプトとともに、研究コミュニティ向けに公開されている。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - BASPRO: a balanced script producer for speech corpus collection based on
the genetic algorithm [29.701197643765674]
音声処理モデルの性能は、訓練と評価に使用される音声コーパスの影響を強く受けている。
本研究では,中国語文の音素バランスとリッチなセットを自動的に構築できるBAlanced Script Producer (BASPRO)システムを提案する。
論文 参考訳(メタデータ) (2022-12-11T02:05:30Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a
Speech Recognition Baseline [0.0]
本稿では,mandarin- English code-switching speech recognition--TALCS corpus の新たなコーパスを提案する。
TALCSコーパス(TALCS corpus)は、TAL教育グループにおけるオンラインの1対1の英語教育シーンに由来する。
私たちの知る限りでは、TALCS corpusは、マンダリン英語のコードスイッチングオープンソース自動音声認識データセットとして世界最大である。
論文 参考訳(メタデータ) (2022-06-27T09:30:25Z) - Creating Speech-to-Speech Corpus from Dubbed Series [8.21384946488751]
本稿では,音声合成コーパスを構築するための教師なし手法を提案する。
提案手法は,ビデオフレーム,音声認識,機械翻訳,ノイズフレーム除去アルゴリズムを利用して,両言語のセグメントをマッチングする。
私たちのパイプラインは17時間のペアセグメントを生成することができました。
論文 参考訳(メタデータ) (2022-03-07T18:52:48Z) - Cascaded Multilingual Audio-Visual Learning from Videos [49.44796976615445]
本稿では、英語ビデオで訓練されたモデルを利用して、他の言語の音声・視覚データに適用するケースケードアプローチを提案する。
本手法では,日本語動画のみの学習に比べて,検索性能が10倍近く向上した。
また、日本語とヒンディー語で話される画像のキャプションに対して、英語ビデオで訓練されたモデルを適用し、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-08T20:53:50Z) - BSTC: A Large-Scale Chinese-English Speech Translation Dataset [26.633433687767553]
BSTC (Baidu Speech Translation Corpus) は、中国語と英語の大規模翻訳データセットである。
このデータセットは、約68時間のマンダリンデータを含む講演や講義のライセンス付きビデオのコレクションに基づいて構築されている。
3名の経験豊富な通訳者に、模擬会議の設定で同時にテストトークを解釈するよう依頼しました。
論文 参考訳(メタデータ) (2021-04-08T07:38:51Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。