論文の概要: Speech Wikimedia: A 77 Language Multilingual Speech Dataset
- arxiv url: http://arxiv.org/abs/2308.15710v1
- Date: Wed, 30 Aug 2023 02:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 15:03:57.446003
- Title: Speech Wikimedia: A 77 Language Multilingual Speech Dataset
- Title(参考訳): Speech Wikimedia: 77言語多言語音声データセット
- Authors: Rafael Mosquera G\'omez, Juli\'an Eusse, Juan Ciro, Daniel Galvez,
Ryan Hileman, Kurt Bollacker, David Kanter
- Abstract要約: Speech Wikimediaデータセットには、77の異なる言語で、CC-BY-SAライセンスの1780時間 (195 GB) のさまざまなシナリオと話者から書き起こされた音声が含まれている。
各オーディオファイルは異なる言語で1つ以上の書き起こしがあり、このデータセットは音声認識、音声翻訳、機械翻訳モデルの訓練に適している。
- 参考スコア(独自算出の注目度): 2.0288829047328614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Speech Wikimedia Dataset is a publicly available compilation of audio
with transcriptions extracted from Wikimedia Commons. It includes 1780 hours
(195 GB) of CC-BY-SA licensed transcribed speech from a diverse set of
scenarios and speakers, in 77 different languages. Each audio file has one or
more transcriptions in different languages, making this dataset suitable for
training speech recognition, speech translation, and machine translation
models.
- Abstract(参考訳): speech wikimediaデータセットは、ウィキメディア・コモンズから抜粋された音声の公開コンパイルである。
1780時間 (195 gb) のcc-by-saライセンスの書き起こし音声が、77の異なる言語で様々なシナリオと話者から集められている。
各オーディオファイルは異なる言語で1つ以上の書き起こしがあり、このデータセットは音声認識、音声翻訳、機械翻訳モデルの訓練に適している。
関連論文リスト
- Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages [20.25236081418051]
Zambezi Voiceはザンビア語のためのオープンソースの多言語音声リソースである。
我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
論文 参考訳(メタデータ) (2023-06-07T13:36:37Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition
and Robust Speech-to-Text Translation [44.53711548080296]
我々は,多言語音声視覚コーパスであるMuAViCを紹介した。
完全に書き起こされ、6つの英訳と6つの英訳の方向をカバーしている。
この結果から,MuAViCは音声認識・翻訳モデルの構築に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-03-01T16:31:01Z) - VideoDubber: Machine Translation with Speech-Aware Length Control for
Video Dubbing [73.56970726406274]
ビデオダビングは、映画やテレビ番組のオリジナルスピーチをターゲット言語の音声に変換することを目的としている。
翻訳された音声が対応するビデオと適切に一致するようにするためには、翻訳された音声の長さ/順を元の音声にできるだけ近づけるべきである。
本稿では,ビデオダビング作業に適した機械翻訳システムを提案する。
論文 参考訳(メタデータ) (2022-11-30T12:09:40Z) - SpeechMatrix: A Large-Scale Mined Corpus of Multilingual
Speech-to-Speech Translations [38.058120432870126]
SpeechMatrixは、音声から音声への翻訳の大規模多言語コーパスである。
136言語対の音声アライメントと、合計418万時間の音声を含む。
論文 参考訳(メタデータ) (2022-11-08T19:09:27Z) - The Multilingual TEDx Corpus for Speech Recognition and Translation [30.993199499048824]
音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。
コーパスはTEDxの8つのソース言語による音声録音のコレクションである。
テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
論文 参考訳(メタデータ) (2021-02-02T21:16:25Z) - UWSpeech: Speech to Speech Translation for Unwritten Languages [145.37116196042282]
UWSpeechと名づけられた非書き言語のための翻訳システムを開発し、対象の非書き言語をコンバータで個別のトークンに変換する。
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を言語間音声認識(XL)で拡張するXL-VAE法を提案する。
スペイン語と英語の会話翻訳データセットの実験では、UWSpeechは、それぞれ16点と10点のBLEUポイントで直接翻訳とVQ-VAEベースラインを上回っている。
論文 参考訳(メタデータ) (2020-06-14T15:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。