論文の概要: Watch or Listen: Robust Audio-Visual Speech Recognition with Visual
Corruption Modeling and Reliability Scoring
- arxiv url: http://arxiv.org/abs/2303.08536v1
- Date: Wed, 15 Mar 2023 11:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:59:24.521792
- Title: Watch or Listen: Robust Audio-Visual Speech Recognition with Visual
Corruption Modeling and Reliability Scoring
- Title(参考訳): Watch or Listen:視覚的破壊モデリングと信頼性検査によるロバストな音声認識
- Authors: Joanna Hong, Minsu Kim, Jeongsoo Choi, Yong Man Ro
- Abstract要約: 本稿では,マルチモーダル入力汚職状況下でのAVSR(Audio-Visual Speech Recognition)について述べる。
実生活では、クリーンな視覚入力は必ずしもアクセス可能ではなく、口唇領域やノイズによっても破壊される。
本稿では, 劣化したマルチモーダル入力に対して堅牢な新しいAVSRフレームワークであるAudio-Visual ReliabilityScoreモジュール(AV-RelScore)を提案する。
- 参考スコア(独自算出の注目度): 29.05833230733178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper deals with Audio-Visual Speech Recognition (AVSR) under multimodal
input corruption situations where audio inputs and visual inputs are both
corrupted, which is not well addressed in previous research directions.
Previous studies have focused on how to complement the corrupted audio inputs
with the clean visual inputs with the assumption of the availability of clean
visual inputs. However, in real life, clean visual inputs are not always
accessible and can even be corrupted by occluded lip regions or noises. Thus,
we firstly analyze that the previous AVSR models are not indeed robust to the
corruption of multimodal input streams, the audio and the visual inputs,
compared to uni-modal models. Then, we design multimodal input corruption
modeling to develop robust AVSR models. Lastly, we propose a novel AVSR
framework, namely Audio-Visual Reliability Scoring module (AV-RelScore), that
is robust to the corrupted multimodal inputs. The AV-RelScore can determine
which input modal stream is reliable or not for the prediction and also can
exploit the more reliable streams in prediction. The effectiveness of the
proposed method is evaluated with comprehensive experiments on popular
benchmark databases, LRS2 and LRS3. We also show that the reliability scores
obtained by AV-RelScore well reflect the degree of corruption and make the
proposed model focus on the reliable multimodal representations.
- Abstract(参考訳): 本稿では,音声入力と視覚入力の両方が破損したマルチモーダル入力汚職状況下でのAVSR(Audio-Visual Speech Recognition)について述べる。
これまでの研究は、クリーンな視覚入力とクリーンな視覚入力の可用性を仮定して、破損したオーディオ入力をどのように補完するかに焦点を当ててきた。
しかし、実生活では、クリーンな視覚入力は必ずしもアクセス可能ではなく、口唇領域やノイズによっても破壊される。
そこで,本稿では,従来のAVSRモデルは,ユニモーダルモデルと比較して,マルチモーダルな入力ストリームや音声,視覚的入力の破損に対して頑健ではないことを示す。
次に,ロバストなavsrモデルを開発するために,マルチモーダル入力破壊モデルを設計する。
最後に、劣化したマルチモーダル入力に対して堅牢な新しいAVSRフレームワーク、すなわちAudio-Visual Reliability Scoring Module (AV-RelScore)を提案する。
AV-RelScoreは、どの入力モーダルストリームが信頼できるかを決定することができ、予測においてより信頼性の高いストリームを利用することもできる。
提案手法の有効性を,一般的なベンチマークデータベース LRS2 と LRS3 の総合的な実験により評価した。
また, AV-RelScore で得られた信頼性スコアは, 破損の程度をよく反映し, モデルが信頼性のあるマルチモーダル表現に焦点をあてることも示す。
関連論文リスト
- AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [57.35004016268099]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecがほとんどの設定で既存のメソッドよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - On Out-of-Distribution Detection for Audio with Deep Nearest Neighbors [3.591566487849146]
アウト・オブ・ディストリビューション(OOD)検出は、モデルのトレーニングデータと同じ分布に属さないデータポイントを特定することである。
本手法は,音声(および音声)データセットの幅広いカテゴリにわたるOOD入力を効果的に検出する。
論文 参考訳(メタデータ) (2022-10-27T09:35:33Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。