論文の概要: Speaker-Adapted End-to-End Visual Speech Recognition for Continuous
Spanish
- arxiv url: http://arxiv.org/abs/2311.12480v1
- Date: Tue, 21 Nov 2023 09:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:19:44.042890
- Title: Speaker-Adapted End-to-End Visual Speech Recognition for Continuous
Spanish
- Title(参考訳): 連続スペイン語における話者適応型エンドツーエンド音声認識
- Authors: David Gimeno-G\'omez, Carlos-D. Mart\'inez-Hinarejos
- Abstract要約: 本稿では,特定の人物を対象としたエンド・ツー・エンドシステムの評価が,音声認識の品質に与える影響について検討する。
現在の技術に匹敵する結果は、限られた量のデータしか入手できなかった場合でも到達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Different studies have shown the importance of visual cues throughout the
speech perception process. In fact, the development of audiovisual approaches
has led to advances in the field of speech technologies. However, although
noticeable results have recently been achieved, visual speech recognition
remains an open research problem. It is a task in which, by dispensing with the
auditory sense, challenges such as visual ambiguities and the complexity of
modeling silence must be faced. Nonetheless, some of these challenges can be
alleviated when the problem is approached from a speaker-dependent perspective.
Thus, this paper studies, using the Spanish LIP-RTVE database, how the
estimation of specialized end-to-end systems for a specific person could affect
the quality of speech recognition. First, different adaptation strategies based
on the fine-tuning technique were proposed. Then, a pre-trained CTC/Attention
architecture was used as a baseline throughout our experiments. Our findings
showed that a two-step fine-tuning process, where the VSR system is first
adapted to the task domain, provided significant improvements when the speaker
adaptation was addressed. Furthermore, results comparable to the current state
of the art were reached even when only a limited amount of data was available.
- Abstract(参考訳): 異なる研究は、音声認識プロセスを通して視覚的手がかりの重要性を示している。
実際、オーディオヴィジュアルアプローチの開発は、音声技術の分野の進歩に繋がった。
しかし,近年,目立った結果が得られているが,視覚音声認識は依然として研究課題である。
聴覚的感覚を欠くことで、視覚的曖昧さやモデリングの沈黙の複雑さといった課題に直面しなければならない課題である。
それでも、これらの課題のいくつかは、話者依存の観点から問題にアプローチする場合に緩和することができる。
そこで本稿では, スペイン語のLIP-RTVEデータベースを用いて, 特定の人物に対するエンド・ツー・エンドシステムの推定が音声認識の品質に与える影響について検討する。
まず、微調整技術に基づく異なる適応戦略を提案した。
そして,本実験のベースラインとして,事前学習したCTC/Attentionアーキテクチャを使用した。
その結果、vsrシステムがタスクドメインに最初に適応する2段階の微調整プロセスが話者適応に対処した際に大きな改善をもたらした。
さらに、限られた量のデータしか入手できなかった場合でも、現在の芸術水準に匹敵する結果が得られた。
関連論文リスト
- LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild [0.0]
本稿では,制約のない自然スペイン語を扱うための半自動注釈付き音声視覚データベースを提案する。
隠れマルコフモデルを用いて話者に依存しないシナリオと話者に依存しないシナリオの両方の結果を報告する。
論文 参考訳(メタデータ) (2023-11-21T09:12:21Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z) - Deep Representation Learning in Speech Processing: Challenges, Recent
Advances, and Future Trends [10.176394550114411]
本研究の主な貢献は,音声表現学習の様々な技術について,最新の包括的調査を行うことである。
近年, ASR, SR, SER の音声評価が行われているが,これらは音声からの表現学習に重点を置いていない。
論文 参考訳(メタデータ) (2020-01-02T10:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。