論文の概要: Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for
Robust Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2306.10563v1
- Date: Sun, 18 Jun 2023 13:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 19:54:43.721345
- Title: Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for
Robust Audio-Visual Speech Recognition
- Title(参考訳): 雑音中の唇の聴取:ロバストな音声認識のための普遍音素マッピングと伝達
- Authors: Yuchen Hu, Ruizhe Li, Chen Chen, Chengwei Qin, Qiushi Zhu, Eng Siong
Chng
- Abstract要約: AVSRの強靭性を高めるために,雑音不変の視覚的モダリティを提案する。
人間の知覚のメカニズムに触発されて,モーダリティ伝達を実装するユニバーサルビセム・音素マッピング (UniVPM) 手法を提案する。
提案手法は, 各種ノイズ, 清潔な条件下での最先端性を実現する。
- 参考スコア(独自算出の注目度): 21.477900473255264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual speech recognition (AVSR) provides a promising solution to
ameliorate the noise-robustness of audio-only speech recognition with visual
information. However, most existing efforts still focus on audio modality to
improve robustness considering its dominance in AVSR task, with noise
adaptation techniques such as front-end denoise processing. Though effective,
these methods are usually faced with two practical challenges: 1) lack of
sufficient labeled noisy audio-visual training data in some real-world
scenarios and 2) less optimal model generality to unseen testing noises. In
this work, we investigate the noise-invariant visual modality to strengthen
robustness of AVSR, which can adapt to any testing noises while without
dependence on noisy training data, a.k.a., unsupervised noise adaptation.
Inspired by human perception mechanism, we propose a universal viseme-phoneme
mapping (UniVPM) approach to implement modality transfer, which can restore
clean audio from visual signals to enable speech recognition under any noisy
conditions. Extensive experiments on public benchmarks LRS3 and LRS2 show that
our approach achieves the state-of-the-art under various noisy as well as clean
conditions. In addition, we also outperform previous state-of-the-arts on
visual speech recognition task.
- Abstract(参考訳): AVSR(Audio-visual speech Recognition)は、視覚情報を用いた音声のみの音声認識のノイズロス性を改善するための有望なソリューションを提供する。
しかし, AVSRタスクの優越性を考慮して, 音質改善に重点を置いており, フロントエンドの雑音処理などの雑音適応技術が注目されている。
効果はあるものの、これらの手法は通常2つの実践的な課題に直面している。
1) 実環境シナリオにおける騒音発声・視聴覚訓練の十分なラベルの欠如と課題
2) テストノイズに対する最適モデル一般性は低い。
本研究では,非教師なし雑音適応の学習データに依存することなく,どのテストノイズにも適応できるavsrの頑健性を高めるために,雑音不変な視覚モダリティについて検討する。
人間の知覚機構に着想を得て,視覚信号からクリーンな音声を復元し,雑音のある環境下での音声認識を可能にする,普遍的な音素マッピング(UniVPM)手法を提案する。
LRS3 と LRS2 のベンチマーク実験により, 様々なノイズや清潔な条件下での最先端性を実現することができた。
また,視覚音声認識タスクにおける先行技術よりも優れていた。
関連論文リスト
- Robust Active Speaker Detection in Noisy Environments [29.785749048315616]
雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T20:52:30Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - Visual Context-driven Audio Feature Enhancement for Robust End-to-End
Audio-Visual Speech Recognition [29.05833230733178]
音声・視覚対応の助けを借りて、入力ノイズの多い音声音声を強化するために、視覚コンテキスト駆動型音声特徴強調モジュール(V-CAFE)を提案する。
The proposed V-CAFE is designed to capture the transition of lip movement、すなわち visual context, and to generate a noise reduction mask by consider the obtained visual context。
提案手法の有効性は,2大音声視覚データセットであるLSS2とLSS3を用いて,雑音の多い音声認識および重複音声認識実験において評価される。
論文 参考訳(メタデータ) (2022-07-13T08:07:19Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。