論文の概要: Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues
- arxiv url: http://arxiv.org/abs/2311.14275v1
- Date: Fri, 24 Nov 2023 04:30:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:02:32.643983
- Title: Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues
- Title(参考訳): 顔面クイズを用いた音声・視覚音声強調のための協調的デュアルアテンション
- Authors: Feixiang Wang, Shuang Yang, Shiguang Shan, Xilin Chen
- Abstract要約: 頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
- 参考スコア(独自算出の注目度): 80.53407593586411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we focus on leveraging facial cues beyond the lip region for
robust Audio-Visual Speech Enhancement (AVSE). The facial region, encompassing
the lip region, reflects additional speech-related attributes such as gender,
skin color, nationality, etc., which contribute to the effectiveness of AVSE.
However, static and dynamic speech-unrelated attributes also exist, causing
appearance changes during speech. To address these challenges, we propose a
Dual Attention Cooperative Framework, DualAVSE, to ignore speech-unrelated
information, capture speech-related information with facial cues, and
dynamically integrate it with the audio signal for AVSE. Specifically, we
introduce a spatial attention-based visual encoder to capture and enhance
visual speech information beyond the lip region, incorporating global facial
context and automatically ignoring speech-unrelated information for robust
visual feature extraction. Additionally, a dynamic visual feature fusion
strategy is introduced by integrating a temporal-dimensional self-attention
module, enabling the model to robustly handle facial variations. The acoustic
noise in the speaking process is variable, impacting audio quality. Therefore,
a dynamic fusion strategy for both audio and visual features is introduced to
address this issue. By integrating cooperative dual attention in the visual
encoder and audio-visual fusion strategy, our model effectively extracts
beneficial speech information from both audio and visual cues for AVSE.
Thorough analysis and comparison on different datasets, including normal and
challenging cases with unreliable or absent visual information, consistently
show our model outperforming existing methods across multiple metrics.
- Abstract(参考訳): 本研究では,口唇領域を超えて顔の手がかりを活用して,頑健な音声強調(AVSE)を実現する。
唇領域を包含する顔領域は、AVSEの有効性に寄与する性別、肌の色、国籍などの音声関連属性を反映する。
しかし、静的および動的音声関連属性も存在し、音声中の外観変化を引き起こす。
これらの課題に対処するために,音声関連情報を無視し,顔の手がかりで音声関連情報をキャプチャし,avseの音声信号と動的に統合する,デュアルアテンション協調フレームワークであるdualavseを提案する。
具体的には,唇領域を超えて視覚情報をキャプチャし,拡張する空間的注意に基づく視覚エンコーダを導入し,グローバルな顔コンテキストを取り入れ,ロバストな視覚特徴抽出のための音声関連情報を自動無視する。
さらに, 時間次元セルフアテンションモジュールを統合し, モデルが顔の変動をロバストに扱えるようにすることで, 動的視覚特徴融合戦略を導入する。
発話過程の音響ノイズは可変であり、音質に影響を与える。
そこで,この問題に対処するために,音声と視覚の両方の動的融合戦略を導入する。
視覚エンコーダと音声-視覚融合戦略に協調的二重注意を組み込むことで,AVSEのための音声と視覚の両方から有益な音声情報を効果的に抽出する。
信頼できない、あるいは欠落している視覚情報を含む、さまざまなデータセットに関する徹底した分析と比較は、複数のメトリクスにわたる既存のメソッドよりも優れたモデルを示しています。
関連論文リスト
- Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition [29.414663568089292]
音声-視覚音声認識は、音声とビデオの両方のモダリティを用いて人間の音声を転写することを目的としている。
本研究では,映像データ中の3つの時間的ダイナミクスを学習することにより,映像特徴の強化を図る。
LRS2 と LRS3 の AVSR ベンチマークにおいて,ノイズ優越性設定のための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-04T01:25:20Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Audio-Visual Activity Guided Cross-Modal Identity Association for Active
Speaker Detection [37.28070242751129]
ビデオ内のアクティブな話者検出は、ビデオフレームで見える元顔と、音声モダリティの基盤となる音声とを関連付ける。
アクティブな話者検出のための音声・視覚活動と話者のクロスモーダル・アイデンティティ・アソシエーションを導くための新しい教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T14:46:00Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。