論文の概要: LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild
- arxiv url: http://arxiv.org/abs/2311.12457v1
- Date: Tue, 21 Nov 2023 09:12:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:16:21.556624
- Title: LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild
- Title(参考訳): LIP-RTVE: 野生における連続スペイン語のオーディオヴィジュアルデータベース
- Authors: David Gimeno-G\'omez, Carlos-D. Mart\'inez-Hinarejos
- Abstract要約: 本稿では,制約のない自然スペイン語を扱うための半自動注釈付き音声視覚データベースを提案する。
隠れマルコフモデルを用いて話者に依存しないシナリオと話者に依存しないシナリオの両方の結果を報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech is considered as a multi-modal process where hearing and vision are
two fundamentals pillars. In fact, several studies have demonstrated that the
robustness of Automatic Speech Recognition systems can be improved when audio
and visual cues are combined to represent the nature of speech. In addition,
Visual Speech Recognition, an open research problem whose purpose is to
interpret speech by reading the lips of the speaker, has been a focus of
interest in the last decades. Nevertheless, in order to estimate these systems
in the currently Deep Learning era, large-scale databases are required. On the
other hand, while most of these databases are dedicated to English, other
languages lack sufficient resources. Thus, this paper presents a
semi-automatically annotated audiovisual database to deal with unconstrained
natural Spanish, providing 13 hours of data extracted from Spanish television.
Furthermore, baseline results for both speaker-dependent and
speaker-independent scenarios are reported using Hidden Markov Models, a
traditional paradigm that has been widely used in the field of Speech
Technologies.
- Abstract(参考訳): 音声は、聴覚と視覚が2つの基本柱であるマルチモーダルプロセスと見なされる。
実際、音声と視覚手がかりを組み合わせて音声の性質を表現することにより、自動音声認識システムのロバスト性が向上することを示す研究がいくつかある。
さらに、話者の唇を読むことによって音声を解釈することを目的としたオープンな研究課題である視覚音声認識が、ここ数十年の関心を集めてきた。
それでも、これらのシステムを現在のディープラーニング時代に推定するには、大規模なデータベースが必要である。
一方で、これらのデータベースのほとんどは英語専用ですが、他の言語には十分なリソースがありません。
そこで本稿では,スペイン語テレビから抽出した13時間分のデータを提供する,半自動注釈付き音声視覚データベースを提案する。
さらに、音声技術の分野で広く使われている伝統的なパラダイムである隠れマルコフモデルを用いて、話者に依存しないシナリオと話者に依存しないシナリオのベースライン結果が報告される。
関連論文リスト
- PRODIS - a speech database and a phoneme-based language model for the study of predictability effects in Polish [1.2016264781280588]
ポーランド語の音声データベースと音素レベル言語モデルを提案する。
このデータベースは、優れた音響品質のポーランド語音声コーパスとして初めて、広く公開されている。
論文 参考訳(メタデータ) (2024-04-15T20:03:58Z) - Speaker-Adapted End-to-End Visual Speech Recognition for Continuous
Spanish [0.0]
本稿では,特定の人物を対象としたエンド・ツー・エンドシステムの評価が,音声認識の品質に与える影響について検討する。
現在の技術に匹敵する結果は、限られた量のデータしか入手できなかった場合でも到達した。
論文 参考訳(メタデータ) (2023-11-21T09:44:33Z) - Analysis of Visual Features for Continuous Lipreading in Spanish [0.0]
リップリーディングは、音声が利用できないときに音声を解釈することを目的とする複雑なタスクである。
そこで本稿では, 自然スペイン語における唇運動の特徴をとらえる上で, どちらが最適かを特定することを目的とした, 異なる音声視覚特徴の分析手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:28:00Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - OLKAVS: An Open Large-Scale Korean Audio-Visual Speech Dataset [14.619865864254924]
Open Large-scale Korean Audio-Visual Speech (OLKAVS)データセットは、一般に公開されている音声視覚音声データセットの中で最大である。
データセットには、韓国語話者1,107人による1,150時間の音声書き起こしが含まれており、9つの異なる視点と様々なノイズ状況がある。
論文 参考訳(メタデータ) (2023-01-16T11:40:50Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。