論文の概要: Visual Context-driven Audio Feature Enhancement for Robust End-to-End
Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2207.06020v1
- Date: Wed, 13 Jul 2022 08:07:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 14:20:47.255609
- Title: Visual Context-driven Audio Feature Enhancement for Robust End-to-End
Audio-Visual Speech Recognition
- Title(参考訳): ロバストエンドツーエンド音声認識のための視覚コンテキスト駆動型音声特徴強調
- Authors: Joanna Hong, Minsu Kim, Daehun Yoo, Yong Man Ro
- Abstract要約: 音声・視覚対応の助けを借りて、入力ノイズの多い音声音声を強化するために、視覚コンテキスト駆動型音声特徴強調モジュール(V-CAFE)を提案する。
The proposed V-CAFE is designed to capture the transition of lip movement、すなわち visual context, and to generate a noise reduction mask by consider the obtained visual context。
提案手法の有効性は,2大音声視覚データセットであるLSS2とLSS3を用いて,雑音の多い音声認識および重複音声認識実験において評価される。
- 参考スコア(独自算出の注目度): 29.05833230733178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on designing a noise-robust end-to-end Audio-Visual Speech
Recognition (AVSR) system. To this end, we propose Visual Context-driven Audio
Feature Enhancement module (V-CAFE) to enhance the input noisy audio speech
with a help of audio-visual correspondence. The proposed V-CAFE is designed to
capture the transition of lip movements, namely visual context and to generate
a noise reduction mask by considering the obtained visual context. Through
context-dependent modeling, the ambiguity in viseme-to-phoneme mapping can be
refined for mask generation. The noisy representations are masked out with the
noise reduction mask resulting in enhanced audio features. The enhanced audio
features are fused with the visual features and taken to an encoder-decoder
model composed of Conformer and Transformer for speech recognition. We show the
proposed end-to-end AVSR with the V-CAFE can further improve the
noise-robustness of AVSR. The effectiveness of the proposed method is evaluated
in noisy speech recognition and overlapped speech recognition experiments using
the two largest audio-visual datasets, LRS2 and LRS3.
- Abstract(参考訳): 本稿では,ノイズロバストなエンドツーエンド音声認識(AVSR)システムの設計に焦点をあてる。
そこで本研究では,音声・視覚対応の助けを借りて,入力ノイズの多い音声を高機能化するための視覚コンテキスト駆動型音声特徴強調モジュール(V-CAFE)を提案する。
提案するv-cafeは,唇運動,すなわち視覚環境の遷移を捉え,得られた視覚状況を考慮してノイズ低減マスクを生成する。
文脈依存モデリングにより、ビセメ対音素マッピングの曖昧さをマスク生成のために改善することができる。
ノイズキャンセリングはノイズ低減マスクでマスクされ、オーディオ機能が強化される。
拡張された音声特徴は視覚的特徴と融合し、音声認識のためにConformerとTransformerで構成されたエンコーダ・デコーダモデルに取り込まれる。
提案するV-CAFEによる終端AVSRは、AVSRのノイズロス性をさらに向上させることができることを示す。
提案手法の有効性は,2大音声視覚データセットであるLSS2とLSS3を用いて,雑音の多い音声認識および重複音声認識実験において評価される。
関連論文リスト
- Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。
まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。
次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文 参考訳(メタデータ) (2024-12-26T00:26:45Z) - Relevance-guided Audio Visual Fusion for Video Saliency Prediction [23.873134951154704]
本稿では,SP と呼ばれる新しい関連性誘導型音声視覚情報量予測ネットワークを提案する。
Fusionモジュールは、音声と視覚要素間の意味的関連性に基づいて、音声機能の保持を動的に調整する。
マルチスケール機能Synergy(MS)モジュールは、異なるエンコーディングステージからの視覚的特徴を統合し、様々なスケールでオブジェクトを表現するネットワークの能力を向上する。
論文 参考訳(メタデータ) (2024-11-18T10:42:27Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition [27.58390468474957]
音声-視覚音声認識(AV-CPL)のための連続擬似ラベリングを提案する。
AV-CPLは、ラベル付きビデオとラベルなしビデオの組み合わせに基づいて、音声視覚音声認識モデルを訓練する半教師付き手法である。
提案手法は教師付きトレーニングと擬似ラベル生成の両方に同じ音声・視覚モデルを使用し,擬似ラベル生成のための外部音声認識モデルの必要性を緩和する。
論文 参考訳(メタデータ) (2023-09-29T16:57:21Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for
Robust Audio-Visual Speech Recognition [21.477900473255264]
AVSRの強靭性を高めるために,雑音不変の視覚的モダリティを提案する。
人間の知覚のメカニズムに触発されて,モーダリティ伝達を実装するユニバーサルビセム・音素マッピング (UniVPM) 手法を提案する。
提案手法は, 各種ノイズ, 清潔な条件下での最先端性を実現する。
論文 参考訳(メタデータ) (2023-06-18T13:53:34Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - End-to-end multi-talker audio-visual ASR using an active speaker
attention module [5.9698688193789335]
本稿では,エンド・ツー・エンドの複数話者音声認識に対する新しいアプローチを提案する。
視覚的コンテキストアテンションモデル(VCAM)と呼ばれるこのアプローチは、利用可能なビデオ情報を用いて、復号されたテキストを複数の可視顔の1つに割り当てるので重要である。
論文 参考訳(メタデータ) (2022-04-01T18:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。