論文の概要: Creating Speech-to-Speech Corpus from Dubbed Series
- arxiv url: http://arxiv.org/abs/2203.03601v1
- Date: Mon, 7 Mar 2022 18:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 16:19:48.251958
- Title: Creating Speech-to-Speech Corpus from Dubbed Series
- Title(参考訳): 音声から音声へのコーパスの作成
- Authors: Massa Baali, Wassim El-Hajj, Ahmed Ali
- Abstract要約: 本稿では,音声合成コーパスを構築するための教師なし手法を提案する。
提案手法は,ビデオフレーム,音声認識,機械翻訳,ノイズフレーム除去アルゴリズムを利用して,両言語のセグメントをマッチングする。
私たちのパイプラインは17時間のペアセグメントを生成することができました。
- 参考スコア(独自算出の注目度): 8.21384946488751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dubbed series are gaining a lot of popularity in recent years with strong
support from major media service providers. Such popularity is fueled by
studies that showed that dubbed versions of TV shows are more popular than
their subtitled equivalents. We propose an unsupervised approach to construct
speech-to-speech corpus, aligned on short segment levels, to produce a parallel
speech corpus in the source- and target- languages. Our methodology exploits
video frames, speech recognition, machine translation, and noisy frames removal
algorithms to match segments in both languages. To verify the performance of
the proposed method, we apply it on long and short dubbed clips. Out of 36
hours TR-AR dubbed series, our pipeline was able to generate 17 hours of paired
segments, which is about 47% of the corpus. We applied our method on another
language pair, EN-AR, to ensure it is robust enough and not tuned for a
specific language or a specific corpus. Regardless of the language pairs, the
accuracy of the paired segments was around 70% when evaluated using human
subjective evaluation. The corpus will be freely available for the research
community.
- Abstract(参考訳): 近年,大手メディアサービスプロバイダの強い支持を得て,ダブドシリーズの人気が高まっている。
このような人気は、テレビ番組のタイトル付きバージョンが字幕付き番組よりも人気があることを示す研究によって加速されている。
本稿では,短いセグメントレベルに基づく音声対音声コーパスを構築し,ソース言語とターゲット言語で並列音声コーパスを作成するための教師なし手法を提案する。
提案手法は,ビデオフレーム,音声認識,機械翻訳,ノイズフレーム除去アルゴリズムを用いて,両言語のセグメントをマッチングする。
提案手法の性能を検証するため,提案手法を長大で短大なクリップに適用した。
36時間のtr-arコールシリーズのうち、パイプラインは17時間のペアセグメントを生成し、コーパスの約47%を占めた。
提案手法を他の言語ペアであるEN-ARに適用し,特定の言語や特定のコーパスに調整されないような堅牢性を確保する。
言語ペアにかかわらず,人間の主観的評価を用いて評価すると,ペアセグメントの精度は約70%であった。
コーパスは研究コミュニティに無償で提供される。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - Speech Segmentation Optimization using Segmented Bilingual Speech Corpus
for End-to-end Speech Translation [16.630616128169372]
セグメント化バイリンガル音声コーパスを用いて訓練された二分分類モデルを用いた音声セグメント化手法を提案する。
実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。
論文 参考訳(メタデータ) (2022-03-29T12:26:56Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - SHAS: Approaching optimal Segmentation for End-to-End Speech Translation [0.0]
音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。
本稿では,手動分割音声コーパスから最適なセグメンテーションを効果的に学習する手法であるSupervised Hybrid Audio (SHAS)を提案する。
MuST-CとmTEDxの実験では、SHASは手動セグメンテーションのBLEUスコアの95-98%を維持している。
論文 参考訳(メタデータ) (2022-02-09T23:55:25Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z) - Construction of a Large-scale Japanese ASR Corpus on TV Recordings [2.28438857884398]
本稿では,音声認識システム(ASR)を学習するための大規模日本語コーパスを提案する。
このコーパスには2000時間以上のスピーチと、日本のテレビの録音とその字幕に書かれた書き起こしが含まれている。
論文 参考訳(メタデータ) (2021-03-26T21:14:12Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。