論文の概要: Attentive Fusion Enhanced Audio-Visual Encoding for Transformer Based
Robust Speech Recognition
- arxiv url: http://arxiv.org/abs/2008.02686v1
- Date: Thu, 6 Aug 2020 14:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 08:04:26.146931
- Title: Attentive Fusion Enhanced Audio-Visual Encoding for Transformer Based
Robust Speech Recognition
- Title(参考訳): 変圧器を用いたロバスト音声認識のためのアテンテーティブフュージョン強化オーディオ-ビジュアル符号化
- Authors: Liangfa Wei, Jie Zhang, Junfeng Hou and Lirong Dai
- Abstract要約: 提案手法は, クリーンで目立たない騒音条件下での認識率を平均0.55%, 4.51%, 4.61%向上させることができる。
LRS3-TEDデータセットの実験により、提案手法は平均0.55%、4.51%、4.61%の認識率を向上できることが示された。
- 参考スコア(独自算出の注目度): 27.742673824969238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual information fusion enables a performance improvement in speech
recognition performed in complex acoustic scenarios, e.g., noisy environments.
It is required to explore an effective audio-visual fusion strategy for
audiovisual alignment and modality reliability. Different from the previous
end-to-end approaches where the audio-visual fusion is performed after encoding
each modality, in this paper we propose to integrate an attentive fusion block
into the encoding process. It is shown that the proposed audio-visual fusion
method in the encoder module can enrich audio-visual representations, as the
relevance between the two modalities is leveraged. In line with the
transformer-based architecture, we implement the embedded fusion block using a
multi-head attention based audiovisual fusion with one-way or two-way
interactions. The proposed method can sufficiently combine the two streams and
weaken the over-reliance on the audio modality. Experiments on the LRS3-TED
dataset demonstrate that the proposed method can increase the recognition rate
by 0.55%, 4.51% and 4.61% on average under the clean, seen and unseen noise
conditions, respectively, compared to the state-of-the-art approach.
- Abstract(参考訳): 音声・視覚情報融合は、複雑な音響シナリオ、例えば雑音環境において行われる音声認識の性能改善を可能にする。
視聴覚のアライメントとモダリティの信頼性に有効な音声・視覚融合戦略を検討する必要がある。
本稿では,各モダリティを符号化した後に音声と視覚の融合を行う従来のエンドツーエンドアプローチと異なり,符号化プロセスに注意深い融合ブロックを統合することを提案する。
エンコーダモジュールで提案する音声と視覚の融合手法は,両モード間の関連性を生かして,音声と視覚の表現を豊かにすることができる。
トランスベースアーキテクチャと並行して,マルチヘッドアテンションに基づく音声視覚融合と双方向インタラクションを用いた組込み型融合ブロックを実装した。
提案手法は,2つのストリームを十分に組み合わせることで,音響モードに対する過度な信頼を弱める。
lrs3-tedデータセットを用いた実験により, 提案手法は, 清浄, 視認, 視認できない雑音条件下での認識率を0.55%, 4.51%, および4.61%向上させることができた。
関連論文リスト
- MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention [3.5803801804085347]
本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。
また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。
その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-03-07T16:57:45Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。
既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文 参考訳(メタデータ) (2023-07-25T03:59:04Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。