論文の概要: TaL: a synchronised multi-speaker corpus of ultrasound tongue imaging,
audio, and lip videos
- arxiv url: http://arxiv.org/abs/2011.09804v1
- Date: Thu, 19 Nov 2020 13:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:42:32.852864
- Title: TaL: a synchronised multi-speaker corpus of ultrasound tongue imaging,
audio, and lip videos
- Title(参考訳): tal: 超音波舌イメージング,音声,リップビデオの同期マルチスピーカーコーパス
- Authors: Manuel Sam Ribeiro, Jennifer Sanger, Jing-Xuan Zhang, Aciel Eshky,
Alan Wrench, Korin Richmond, Steve Renals
- Abstract要約: Tongue and Lips corpus(トーグ・アンド・リップス・コーパス、TaL)は、音声、超音波舌画像、リップビデオの多話者コーパスである。
TaL1はプロの音声タレントによる6つの録音セッションのセットであり、TaL80は音声タレント経験のない81人のネイティブ話者による録音セッションのセットである。
全体として、コーパスには24時間の平行超音波、ビデオ、音声データが含まれており、そのうち約13.5時間は音声である。
- 参考スコア(独自算出の注目度): 32.553402309116024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Tongue and Lips corpus (TaL), a multi-speaker corpus of audio,
ultrasound tongue imaging, and lip videos. TaL consists of two parts: TaL1 is a
set of six recording sessions of one professional voice talent, a male native
speaker of English; TaL80 is a set of recording sessions of 81 native speakers
of English without voice talent experience. Overall, the corpus contains 24
hours of parallel ultrasound, video, and audio data, of which approximately
13.5 hours are speech. This paper describes the corpus and presents benchmark
results for the tasks of speech recognition, speech synthesis
(articulatory-to-acoustic mapping), and automatic synchronisation of ultrasound
to audio. The TaL corpus is publicly available under the CC BY-NC 4.0 license.
- Abstract(参考訳): Tongue and Lips corpus (TaL) は, 音声, 超音波舌画像, リップビデオの多話者コーパスである。
TaL1は1人のプロの音声タレント、男性の英語母語話者の6つの録音セッション、TaL80は81人の英語母語話者の音声タレント経験のない録音セッションである。
総じて、コーパスには24時間の並行超音波、ビデオ、音声データが含まれており、そのうち約13.5時間は音声である。
本稿では,コーパスについて述べるとともに,音声認識,音声合成(調音-音響マッピング),超音波と音声の自動同期などのタスクのベンチマーク結果を示す。
TaLコーパスはCC BY-NC 4.0ライセンスで公開されている。
関連論文リスト
- TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - BANSpEmo: A Bangla Emotional Speech Recognition Dataset [0.0]
このコーパスには、1時間23分以上のオーディオ録音が772件含まれている。
データセットは12のBangla文からなり、Disgust、Happy、Sad、Suprised、Anger、Fearの6つの感情で発声される。
BanSpEmoは、Bangla言語における感情と音声認識研究および関連する応用を促進するのに有用なリソースであると考えられる。
論文 参考訳(メタデータ) (2023-12-21T16:52:41Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition
and Robust Speech-to-Text Translation [44.53711548080296]
我々は,多言語音声視覚コーパスであるMuAViCを紹介した。
完全に書き起こされ、6つの英訳と6つの英訳の方向をカバーしている。
この結果から,MuAViCは音声認識・翻訳モデルの構築に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-03-01T16:31:01Z) - BASPRO: a balanced script producer for speech corpus collection based on
the genetic algorithm [29.701197643765674]
音声処理モデルの性能は、訓練と評価に使用される音声コーパスの影響を強く受けている。
本研究では,中国語文の音素バランスとリッチなセットを自動的に構築できるBAlanced Script Producer (BASPRO)システムを提案する。
論文 参考訳(メタデータ) (2022-12-11T02:05:30Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a
Speech Recognition Baseline [0.0]
本稿では,mandarin- English code-switching speech recognition--TALCS corpus の新たなコーパスを提案する。
TALCSコーパス(TALCS corpus)は、TAL教育グループにおけるオンラインの1対1の英語教育シーンに由来する。
私たちの知る限りでは、TALCS corpusは、マンダリン英語のコードスイッチングオープンソース自動音声認識データセットとして世界最大である。
論文 参考訳(メタデータ) (2022-06-27T09:30:25Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - The Multilingual TEDx Corpus for Speech Recognition and Translation [30.993199499048824]
音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。
コーパスはTEDxの8つのソース言語による音声録音のコレクションである。
テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
論文 参考訳(メタデータ) (2021-02-02T21:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。