論文の概要: When AVSR Meets Video Conferencing: Dataset, Degradation, and the Hidden Mechanism Behind Performance Collapse
- arxiv url: http://arxiv.org/abs/2603.22915v1
- Date: Tue, 24 Mar 2026 08:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.373197
- Title: When AVSR Meets Video Conferencing: Dataset, Degradation, and the Hidden Mechanism Behind Performance Collapse
- Title(参考訳): AVSRがビデオ会議に出会った時: パフォーマンスの崩壊の背後にあるデータセット、劣化、隠れたメカニズム
- Authors: Yihuan Huang, Jun Xue, Liu Jiajun, Daixian Li, Tong Zhang, Zhuolin Yi, Yanzhen Ren, Kai Li,
- Abstract要約: 音声強調アルゴリズムは、音声の第1および第2フォルマントを変更する分散シフトの主源である。
音声の第1フォルマントと第2フォルマントを変化させる分散シフトの主源は音声強調アルゴリズムであることがわかった。
- 参考スコア(独自算出の注目度): 23.08512253200574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Speech Recognition (AVSR) has achieved remarkable progress in offline conditions, yet its robustness in real-world video conferencing (VC) remains largely unexplored. This paper presents the first systematic evaluation of state-of-the-art AVSR models across mainstream VC platforms, revealing severe performance degradation caused by transmission distortions and spontaneous human hyper-expression. To address this gap, we construct \textbf{MLD-VC}, the first multimodal dataset tailored for VC, comprising 31 speakers, 22.79 hours of audio-visual data, and explicit use of the Lombard effect to enhance human hyper-expression. Through comprehensive analysis, we find that speech enhancement algorithms are the primary source of distribution shift, which alters the first and second formants of audio. Interestingly, we find that the distribution shift induced by the Lombard effect closely resembles that introduced by speech enhancement, which explains why models trained on Lombard data exhibit greater robustness in VC. Fine-tuning AVSR models on MLD-VC mitigates this issue, achieving an average 17.5% reduction in CER across several VC platforms. Our findings and dataset provide a foundation for developing more robust and generalizable AVSR systems in real-world video conferencing. MLD-VC is available at https://huggingface.co/datasets/nccm2p2/MLD-VC.
- Abstract(参考訳): 音声画像音声認識(AVSR)は、オフライン環境では顕著な進歩を遂げているが、実際のビデオ会議(VC)における堅牢性は、まだ明らかにされていない。
本稿では,メインストリームVCプラットフォームにまたがる最先端のAVSRモデルの最初の体系的評価を行い,送信歪みと自然発振による性能劣化を明らかにした。
このギャップに対処するために、31人の話者と22.79時間の音声視覚データと、Lombard効果を明示的に使用して、ヒトのハイパー圧縮を強化する、VC用に調整された最初のマルチモーダルデータセットである‘textbf{MLD-VC}’を構築した。
包括的分析により,音声の第1フォルマントと第2フォルマントを変化させる分散シフトの主源は音声強調アルゴリズムであることがわかった。
興味深いことに、ロンバルド効果によって引き起こされる分布シフトは、音声強調によってもたらされる分布シフトとよく似ており、ロンバルドデータで訓練されたモデルがVCに強い堅牢性を示す理由が説明できる。
MLD-VC上の微調整型AVSRモデルはこの問題を緩和し、いくつかのVCプラットフォームで平均17.5%のCER削減を実現している。
我々の発見とデータセットは、実世界のビデオ会議においてより堅牢で一般化可能なAVSRシステムを開発する基盤を提供する。
MLD-VCはhttps://huggingface.co/datasets/nccm2p2/MLD-VCで利用可能である。
関連論文リスト
- GMS-CAVP: Improving Audio-Video Correspondence with Multi-Scale Contrastive and Generative Pretraining [64.72014392166625]
GMS-CAVPは、マルチスケールビデオ・オーディオアライメントとマルチスケール空間時間拡散に基づく事前学習目的を組み合わせた、新しいフレームワークである。
まず、GMS-CAVPは、様々な粒度にわたる意味的および時間的関係をキャプチャするマルチスケールのコントラスト学習戦略を導入する。
第2に、拡散に基づく生成目的を組み込むことにより、従来のコントラスト学習を超越し、ビデオとオーディオ間のモダリティ変換と合成を可能にする。
論文 参考訳(メタデータ) (2026-01-27T13:43:32Z) - AVAR-Net: A Lightweight Audio-Visual Anomaly Recognition Framework with a Benchmark Dataset [11.179608136803447]
異常認識は、監視、交通、医療、公衆安全において重要な役割を担っている。
既存のアプローチは視覚データのみに依存しており、困難な状況下では信頼できない。
大規模な同期音声-視覚の欠如は、マルチモーダルな異常認識の進展を妨げている。
論文 参考訳(メタデータ) (2025-10-15T14:56:00Z) - Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model [16.22530358172138]
このフレームワークは、整列したトレーニングデータセグメントを選択するためのスコアリング機構を実装している。
音声ベースの基礎モデルであるWhisperと、デュアルエンコーダ構造におけるビデオ解析のためのDINOv2を統合している。
AudioCaps、VALOR、VGGSoundの評価は、提案したモデルアーキテクチャの有効性を示す。
論文 参考訳(メタデータ) (2025-03-12T09:48:38Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。