論文の概要: Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation
- arxiv url: http://arxiv.org/abs/2504.18539v2
- Date: Wed, 30 Apr 2025 05:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.870538
- Title: Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation
- Title(参考訳): ロバストな音声・視覚音声表現学習のためのマルチタスク故障予測
- Authors: Sungnyun Kim, Sungwoo Cho, Sangmin Bae, Kangwook Jang, Se-Young Yun,
- Abstract要約: CAV2vecは、音声と視覚の協調的腐敗を処理するための、新しい自己教師型音声表現学習フレームワークである。
クロスモーダルな知識を蒸留し、劣化したモダリティを整合させる一元多タスク学習を提案する。
頑健なAVSRベンチマーク実験により, 劣化した表現学習手法が認識精度を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 23.406334722946163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual speech recognition (AVSR) incorporates auditory and visual modalities to improve recognition accuracy, particularly in noisy environments where audio-only speech systems are insufficient. While previous research has largely addressed audio disruptions, few studies have dealt with visual corruptions, e.g., lip occlusions or blurred videos, which are also detrimental. To address this real-world challenge, we propose CAV2vec, a novel self-supervised speech representation learning framework particularly designed to handle audio-visual joint corruption. CAV2vec employs a self-distillation approach with a corrupted prediction task, where the student model learns to predict clean targets, generated by the teacher model, with corrupted input frames. Specifically, we suggest a unimodal multi-task learning, which distills cross-modal knowledge and aligns the corrupted modalities, by predicting clean audio targets with corrupted videos, and clean video targets with corrupted audios. This strategy mitigates the dispersion in the representation space caused by corrupted modalities, leading to more reliable and robust audio-visual fusion. Our experiments on robust AVSR benchmarks demonstrate that the corrupted representation learning method significantly enhances recognition accuracy across generalized environments involving various types of corruption. Our code is available at https://github.com/sungnyun/cav2vec.
- Abstract(参考訳): 音声視覚音声認識(AVSR)は、特に音声のみの音声システムが不十分な雑音環境において、音声認識精度を向上させるために聴覚と視覚のモダリティを取り入れている。
これまでの研究は、主にオーディオの破壊に対処してきたが、口唇の閉塞やぼやけたビデオなど、視覚的腐敗に対処する研究はほとんどない。
この現実的な課題に対処するため、我々は、特に音声と視覚の関節の破損を処理するために設計された、新しい自己教師型音声表現学習フレームワークであるCAV2vecを提案する。
CAV2vecは、学生モデルが教師モデルによって生成されたクリーンな目標を、破損した入力フレームで予測することを学習する、破損した予測タスクを備えた自己蒸留方式を採用している。
具体的には,一元的マルチタスク学習を提案する。これはクロスモーダルな知識を蒸留し,破損したモダリティを整合させるもので,クリーンなオーディオターゲットを劣化したビデオで予測し,クリーンなビデオターゲットを劣化したオーディオで予測する。
この戦略は、劣化したモダリティによって引き起こされる表現空間の分散を緩和し、より信頼性が高く堅牢なオーディオ視覚融合をもたらす。
頑健なAVSRベンチマーク実験により, 各種の汚損を含む一般化環境における認識精度を著しく向上することを示す。
私たちのコードはhttps://github.com/sungnyun/cav2vec.comで入手可能です。
関連論文リスト
- Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。
まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。
次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文 参考訳(メタデータ) (2024-12-26T00:26:45Z) - AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection [2.985620880452743]
本稿では,2段階のクロスモーダル学習法であるAVFF(Audio-Visual Feature Fusion)を提案する。
マルチモーダルな表現を抽出するために、コントラスト学習と自動符号化の目的を使い、新しい音声-視覚マスキングと特徴融合戦略を導入する。
我々は、FakeAVCelebデータセットの98.6%の精度と99.1%のAUCを報告し、現在のオーディオ・ビジュアル・オブ・ザ・アートをそれぞれ14.9%、9.9%上回った。
論文 参考訳(メタデータ) (2024-06-05T05:20:12Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Watch or Listen: Robust Audio-Visual Speech Recognition with Visual
Corruption Modeling and Reliability Scoring [29.05833230733178]
本稿では,マルチモーダル入力汚職状況下でのAVSR(Audio-Visual Speech Recognition)について述べる。
実生活では、クリーンな視覚入力は必ずしもアクセス可能ではなく、口唇領域やノイズによっても破壊される。
本稿では, 劣化したマルチモーダル入力に対して堅牢な新しいAVSRフレームワークであるAudio-Visual ReliabilityScoreモジュール(AV-RelScore)を提案する。
論文 参考訳(メタデータ) (2023-03-15T11:29:36Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。