論文の概要: Watch or Listen: Robust Audio-Visual Speech Recognition with Visual
Corruption Modeling and Reliability Scoring
- arxiv url: http://arxiv.org/abs/2303.08536v2
- Date: Mon, 20 Mar 2023 07:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 22:31:23.515271
- Title: Watch or Listen: Robust Audio-Visual Speech Recognition with Visual
Corruption Modeling and Reliability Scoring
- Title(参考訳): Watch or Listen:視覚的破壊モデリングと信頼性検査によるロバストな音声認識
- Authors: Joanna Hong, Minsu Kim, Jeongsoo Choi, Yong Man Ro
- Abstract要約: 本稿では,マルチモーダル入力汚職状況下でのAVSR(Audio-Visual Speech Recognition)について述べる。
実生活では、クリーンな視覚入力は必ずしもアクセス可能ではなく、口唇領域やノイズによっても破壊される。
本稿では, 劣化したマルチモーダル入力に対して堅牢な新しいAVSRフレームワークであるAudio-Visual ReliabilityScoreモジュール(AV-RelScore)を提案する。
- 参考スコア(独自算出の注目度): 29.05833230733178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper deals with Audio-Visual Speech Recognition (AVSR) under multimodal
input corruption situations where audio inputs and visual inputs are both
corrupted, which is not well addressed in previous research directions.
Previous studies have focused on how to complement the corrupted audio inputs
with the clean visual inputs with the assumption of the availability of clean
visual inputs. However, in real life, clean visual inputs are not always
accessible and can even be corrupted by occluded lip regions or noises. Thus,
we firstly analyze that the previous AVSR models are not indeed robust to the
corruption of multimodal input streams, the audio and the visual inputs,
compared to uni-modal models. Then, we design multimodal input corruption
modeling to develop robust AVSR models. Lastly, we propose a novel AVSR
framework, namely Audio-Visual Reliability Scoring module (AV-RelScore), that
is robust to the corrupted multimodal inputs. The AV-RelScore can determine
which input modal stream is reliable or not for the prediction and also can
exploit the more reliable streams in prediction. The effectiveness of the
proposed method is evaluated with comprehensive experiments on popular
benchmark databases, LRS2 and LRS3. We also show that the reliability scores
obtained by AV-RelScore well reflect the degree of corruption and make the
proposed model focus on the reliable multimodal representations.
- Abstract(参考訳): 本稿では,音声入力と視覚入力の両方が破損したマルチモーダル入力汚職状況下でのAVSR(Audio-Visual Speech Recognition)について述べる。
これまでの研究は、クリーンな視覚入力とクリーンな視覚入力の可用性を仮定して、破損したオーディオ入力をどのように補完するかに焦点を当ててきた。
しかし、実生活では、クリーンな視覚入力は必ずしもアクセス可能ではなく、口唇領域やノイズによっても破壊される。
そこで,本稿では,従来のAVSRモデルは,ユニモーダルモデルと比較して,マルチモーダルな入力ストリームや音声,視覚的入力の破損に対して頑健ではないことを示す。
次に,ロバストなavsrモデルを開発するために,マルチモーダル入力破壊モデルを設計する。
最後に、劣化したマルチモーダル入力に対して堅牢な新しいAVSRフレームワーク、すなわちAudio-Visual Reliability Scoring Module (AV-RelScore)を提案する。
AV-RelScoreは、どの入力モーダルストリームが信頼できるかを決定することができ、予測においてより信頼性の高いストリームを利用することもできる。
提案手法の有効性を,一般的なベンチマークデータベース LRS2 と LRS3 の総合的な実験により評価した。
また, AV-RelScore で得られた信頼性スコアは, 破損の程度をよく反映し, モデルが信頼性のあるマルチモーダル表現に焦点をあてることも示す。
関連論文リスト
- What If the Input is Expanded in OOD Detection? [77.37433624869857]
Out-of-distriion (OOD) 検出は未知のクラスからのOOD入力を特定することを目的としている。
In-distriion(ID)データと区別するために,様々なスコアリング関数を提案する。
入力空間に異なる共通の汚職を用いるという、新しい視点を導入する。
論文 参考訳(メタデータ) (2024-10-24T06:47:28Z) - Learning Trimodal Relation for AVQA with Missing Modality [13.705369273831055]
モダリティが欠如している場合でも、堅牢なAVQA(Audio-Visual Question Answering)性能を保証するフレームワークを提案する。
提案手法は,入力モダリティが欠落している場合でも,利用可能な情報を有効活用することにより,正確な回答を提供することができる。
論文 参考訳(メタデータ) (2024-07-23T04:35:56Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。