論文の概要: On Robustness to Missing Video for Audiovisual Speech Recognition
- arxiv url: http://arxiv.org/abs/2312.10088v2
- Date: Tue, 19 Dec 2023 01:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:39:25.645665
- Title: On Robustness to Missing Video for Audiovisual Speech Recognition
- Title(参考訳): 視聴覚音声認識における欠落映像のロバスト性について
- Authors: Oscar Chang, Otavio Braga, Hank Liao, Dmitriy Serdyuk, Olivier Siohan
- Abstract要約: ビデオフレームの欠落は、単一モードのオーディオのみのモデルよりも、オーディオ視覚モデルの性能を劣化させるべきではないことを示す。
堅牢性に関する主張を正確かつテスト可能な方法で評価できるフレームワークを導入します。
- 参考スコア(独自算出の注目度): 17.261450158359402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been shown that learning audiovisual features can lead to improved
speech recognition performance over audio-only features, especially for noisy
speech. However, in many common applications, the visual features are partially
or entirely missing, e.g.~the speaker might move off screen. Multi-modal models
need to be robust: missing video frames should not degrade the performance of
an audiovisual model to be worse than that of a single-modality audio-only
model. While there have been many attempts at building robust models, there is
little consensus on how robustness should be evaluated. To address this, we
introduce a framework that allows claims about robustness to be evaluated in a
precise and testable way. We also conduct a systematic empirical study of the
robustness of common audiovisual speech recognition architectures on a range of
acoustic noise conditions and test suites. Finally, we show that an
architecture-agnostic solution based on cascades can consistently achieve
robustness to missing video, even in settings where existing techniques for
robustness like dropout fall short.
- Abstract(参考訳): 視聴覚機能を学ぶことで、特に雑音の多い音声に対して、音声認識性能が向上することが示されている。
しかし、多くの一般的なアプリケーションでは、視覚的特徴は部分的に、または完全に欠落している。
ビデオフレームの欠如は、オーディオヴィジュアルモデルの性能が単一モダリティのオーディオオンリーモデルよりも悪くなるように劣化させるべきではない。
堅牢なモデルを構築する試みは数多くあったが、いかに堅牢性を評価するべきかについてのコンセンサスはほとんどない。
これに対処するために,ロバスト性に関するクレームを正確かつテスト可能な方法で評価するフレームワークを提案する。
また,様々な音響雑音条件とテストスイートに基づいて,一般的な音声視覚音声認識アーキテクチャの頑健性に関する系統的研究を行った。
最後に,ドロップアウトなどの既存のロバスト化技術が不足している場合でも,カスケードに基づくアーキテクチャ非依存のソリューションは,ビデオの欠落に対して一貫してロバスト性を実現することができることを示す。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Multi-encoder attention-based architectures for sound recognition with
partial visual assistance [14.160670979300628]
この問題に対処するために,マルチエンコーダフレームワークを使用できることを示す。
提案するモデル拡張は,部分的に利用可能な視覚情報を組み込むのに有効であることを示す。
論文 参考訳(メタデータ) (2022-09-26T16:32:33Z) - A Single Self-Supervised Model for Many Speech Modalities Enables
Zero-Shot Modality Transfer [31.028408352051684]
マルチモーダル音声と非モーダル音声の両方を活用できる自己教師型事前学習フレームワークであるu-HuBERTを提案する。
LRS3では1.2%/1.4%/27.2%の音声認識単語誤り率を示す。
論文 参考訳(メタデータ) (2022-07-14T16:21:33Z) - Can audio-visual integration strengthen robustness under multimodal
attacks? [47.791552254215745]
マルチモーダルな敵対攻撃に対する視聴覚イベント認識タスクをプロキシとして使用し、視聴覚学習の堅牢性を調査します。
我々は、音声と視覚の統合が認識を強化するかどうかを調べるために、オーディオ、視覚、両方のモダリティを攻撃します。
攻撃下のマルチモーダル相互作用を解釈するために,弱教師付き音源定位モデルを学ぶ。
論文 参考訳(メタデータ) (2021-04-05T16:46:45Z) - Audiovisual Saliency Prediction in Uncategorized Video Sequences based
on Audio-Video Correlation [0.0]
本研究の目的は,低レベルの音声と映像の特徴を同期して計算した音声サリエンシーマップと視覚サリエンシーマップを補完する汎用的な音声/ビデオサリエンシーモデルを提供することである。
提案モデルは,diemビデオデータセットの眼固定データに対する異なる基準を用いて評価した。
論文 参考訳(メタデータ) (2021-01-07T14:22:29Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。