論文の概要: Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2603.12046v1
- Date: Thu, 12 Mar 2026 15:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.176481
- Title: Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition
- Title(参考訳): Dr. SHAP-AV:Shapley Attributionによる音声・視覚音声認識における相対的モダリティ寄与の復号
- Authors: Umberto Cappellazzo, Stavros Petridis, Maja Pantic,
- Abstract要約: 本稿では、Shapley値を用いてAVSRにおけるモダリティ貢献を分析するフレームワークであるSHAP-AVについて述べる。
以上の結果から, ノイズ下での視覚依存へのシフトが, 重度劣化下においても高いオーディオコントリビューションを維持していることが明らかとなった。
- 参考スコア(独自算出の注目度): 31.674189841861107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Speech Recognition (AVSR) leverages both acoustic and visual information for robust recognition under noise. However, how models balance these modalities remains unclear. We present Dr. SHAP-AV, a framework using Shapley values to analyze modality contributions in AVSR. Through experiments on six models across two benchmarks and varying SNR levels, we introduce three analyses: Global SHAP for overall modality balance, Generative SHAP for contribution dynamics during decoding, and Temporal Alignment SHAP for input-output correspondence. Our findings reveal that models shift toward visual reliance under noise yet maintain high audio contributions even under severe degradation. Modality balance evolves during generation, temporal alignment holds under noise, and SNR is the dominant factor driving modality weighting. These findings expose a persistent audio bias, motivating ad-hoc modality-weighting mechanisms and Shapley-based attribution as a standard AVSR diagnostic.
- Abstract(参考訳): AVSR(Audio-Visual Speech Recognition)は、雑音下での頑健な音声認識に音響情報と視覚情報の両方を活用する。
しかし、モデルがどのようにこれらのモダリティのバランスをとるかは定かではない。
本稿では、Shapley値を用いてAVSRにおけるモダリティ貢献を分析するフレームワークであるSHAP-AVについて述べる。
2つのベンチマークと異なるSNRレベルの6つのモデルの実験を通じて、全体モダリティバランスのためのグローバルSHAP、デコーディング時のコントリビューションダイナミクスのための生成SHAP、入力出力対応のための時間アライメントSHAPの3つの分析を紹介した。
以上の結果から, ノイズ下での視覚依存へのシフトが, 重度劣化下においても高いオーディオコントリビューションを維持していることが明らかとなった。
モーダリティバランスは世代によって進化し、時間的アライメントはノイズの下で保持され、SNRはモーダリティ重み付けを駆動する主要な要因である。
以上の結果より, 持続的オーディオバイアスが出現し, アドホックなモダリティ重み付け機構とShapleyをベースとした属性が標準的AVSR診断であることが明らかとなった。
関連論文リスト
- Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。
さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文 参考訳(メタデータ) (2026-02-24T14:46:54Z) - CAE-AV: Improving Audio-Visual Learning via Cross-modal Interactive Enrichment [12.793962173450494]
本稿では,音声視覚学習のための新しいキャプション・アラインメント・アンド・コンセンサス・ガイダンス・エンハンスメント・フレームワーク(CAE-AV)を提案する。
2つの補完モジュール:クロスモーダル・コンセンサス・ガイド付き時空強化(CASTE)とキャプション・アライン・サリエンシ・ガイダンス・エンリッチメント(CASE)
CASTEは、フレームレベルのオーディオ・視覚的合意を評価することで空間的・時間的関係をバランスさせ、キー情報が前と後の両方のフレームから不正に取得されることを保証する。
症例は、選択された時間的位置に対して、横断的意味指導を注入し、高いレベルの意味的手がかりを活用して、不一致を緩和する。
論文 参考訳(メタデータ) (2026-02-09T06:30:25Z) - Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification [55.56234913868664]
マルチモーダルデータを用いた信頼性学習のためのTAHCD(Test-time Adaptive Hierarchical Co-enhanced Denoising Network)を提案する。
提案手法は,最先端の信頼性の高いマルチモーダル学習手法と比較して,優れた分類性能,堅牢性,一般化を実現する。
論文 参考訳(メタデータ) (2026-01-12T03:14:12Z) - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - Evaluating and Improving the Robustness of Speech Command Recognition Models to Noise and Distribution Shifts [0.0]
学習条件と入力特徴がOOD条件下での音声キーワード分類器の頑健性と一般化能力に与える影響について検討する。
以上の結果から,いくつかの構成ではノイズ認識訓練が改善することが示唆された。
論文 参考訳(メタデータ) (2025-07-30T22:14:16Z) - Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations [39.31175048498422]
本研究では,声質評価ネットワーク (VOQANet) を提案する。
また,低レベル音声記述子であるjitter,shimmer,haronics-to-noise ratio(HNR)とSFMをハイブリッド表現に組み込んだVOQANet+を導入する。
以上の結果から,特に患者レベルでの母音による入力は,音声属性を抽出する発話の長大さに優れることがわかった。
論文 参考訳(メタデータ) (2025-05-27T15:48:17Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。