論文の概要: Multimodal Confidence Modeling in Audio-Visual Quality Assessment
- arxiv url: http://arxiv.org/abs/2605.01219v1
- Date: Sat, 02 May 2026 03:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.646319
- Title: Multimodal Confidence Modeling in Audio-Visual Quality Assessment
- Title(参考訳): 映像品質評価におけるマルチモーダル信頼度モデリング
- Authors: Mayesha Maliha R. Mithila, Mylene C. Q. Farias,
- Abstract要約: 本稿では,マルチモーダルな信頼性を考慮したAVQAフレームワークであるMCM-AVQAを提案する。
モーダル比の信頼度を推定し、モーダル間注目のために専用のオーディオ・ビジュアル・ミキサーに注入する。
実験の結果,MCM-AVQA,特に信頼性誘導型オーディオ・ビジュアル・ミキサーは,人の平均世論スコアとの相関性を向上させることがわかった。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual quality assessment (AVQA) is essential for streaming, teleconferencing, and immersive media. In realistic streaming scenarios, distortions are often asymmetric, where one modality may be severely degraded while the other remains clean. Still, most contemporary AVQA metrics treat audio and video as equally reliable, causing confidence-unaware fusion to emphasize unreliable signals. This paper proposes MCM-AVQA, a multimodal confidence-aware AVQA framework that explicitly estimates modality-specific confidence and injects it into a dedicated audio-visual mixer for cross-modal attention. The Audio-Visual Mixer utilizes frame-level, confidence-guided channel attention to gate fusion, modulating feature interaction between modalities so that high-confidence streams dominate while unreliable inputs are suppressed, preserving temporal degradation patterns. A multi-head visual confidence estimator turns frame-level artifact probabilities into temporally smoothed, clip-level visual confidence scores, while an audio confidence module derives confidence from speech-quality cues without requiring a clean reference. Experiments on multiple AVQA benchmarks show that MCM-AVQA, and specifically its confidence-guided Audio-Visual Mixer, improve correlation with human mean opinion scores and yield more interpretable behavior under real-world asymmetric audio-visual distortions.
- Abstract(参考訳): オーディオ視覚品質評価(AVQA)は、ストリーミング、遠隔会議、没入型メディアに不可欠である。
現実的なストリーミングシナリオでは、歪みはしばしば非対称であり、一方のモダリティは著しく劣化し、もう一方のモダリティはきれいである。
しかし、現代のAVQAの指標のほとんどは、音声とビデオが同様に信頼できるものとして扱われており、信頼性に欠けた融合によって信頼性の低い信号が強調される。
本稿では,MCM-AVQAを提案する。MCM-AVQAは,モダリティ固有の信頼度を明示的に推定し,モーダル間注目のために専用のオーディオ・ビジュアル・ミキサーに注入する多モード信頼度対応型AVQAフレームワークである。
オーディオ・ビジュアル・ミキサーは、フレームレベル、信頼誘導チャネルの注意をゲート融合に利用し、高信頼ストリームが支配され、信頼できない入力が抑制され、時間劣化パターンが保存されるように、モダリティ間の特徴的相互作用を変調する。
マルチヘッド視覚的信頼度推定器は、フレームレベルのアーチファクト確率を時間的にスムーズなクリップレベルの視覚的信頼度スコアに変換し、オーディオ的信頼度モジュールは、クリーンな参照を必要とせずに、音声品質のキューからの信頼を導出する。
複数のAVQAベンチマークの実験により、MCM-AVQA、特に信頼性誘導型オーディオ・ビジュアル・ミキサーは、人間の平均的意見スコアとの相関を改善し、現実世界の非対称なオーディオ・視覚歪み下でのより解釈可能な振る舞いをもたらすことが示された。
関連論文リスト
- QA-MoE: Towards a Continuous Reliability Spectrum with Quality-Aware Mixture of Experts for Robust Multimodal Sentiment Analysis [9.551550608808752]
欠如と品質劣化をひとつのフレームワークに統合するために、継続的信頼性スペクトラムを導入します。
そこで我々は,自己教師型アレタリック不確実性によってモダリティの信頼性を定量化するQA-MoEを提案する。
大規模な実験により、QA-MoEは様々な劣化シナリオで競争力や最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2026-04-07T11:04:23Z) - Linking Perception, Confidence and Accuracy in MLLMs [15.540652692247098]
信頼駆動強化学習(CDRL)は、感度を高め、モデルの信頼性を堅牢に調整するために、オリジナルノイズイメージペアを使用する。
信頼性を考慮したテスト時間スケーリング(CA-TTS)は、信頼性信号によって導かれる自己整合性、自己回帰、視覚的自己チェックモジュールを動的に調整する。
統合されたフレームワークは、4つのベンチマークで一貫性のある8.8%のアップで、最先端の新たな結果を確立します。
論文 参考訳(メタデータ) (2026-03-12T16:47:42Z) - Confidence Estimation for LLMs in Multi-turn Interactions [48.081802290688394]
この研究は、マルチターン相互作用における信頼度推定に関する最初の体系的研究である。
そこで我々は,2つの主要なデシラタに基礎を置く形式的評価枠組みを構築した。
我々の研究は、より信頼性が高く信頼性の高い会話エージェントを開発するための基礎的な方法論を提供する。
論文 参考訳(メタデータ) (2026-01-05T14:58:04Z) - BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Cross-Attention with Confidence Weighting for Multi-Channel Audio Alignment [5.380078543698624]
マルチチャンネルオーディオアライメントは、生体音響モニタリング、空間オーディオシステム、音響ローカライゼーションにおいて重要な要件である。
マルチチャンネル音声同期を改善するために,クロスアテンション機構と信頼度重み付けスコアリングを組み合わせた手法を提案する。
提案手法は,BioDCASE 2025 Task 1 チャレンジにおいて,ディープラーニングベースラインの 0.58 に対して,テストデータセットの平均 0.30 MSE で1位となった。
論文 参考訳(メタデータ) (2025-09-21T05:14:06Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Confidence Estimation for Attention-based Sequence-to-sequence Models
for Speech Recognition [31.25931550876392]
音声認識器からの信頼スコアは、転写の質を評価するのに有用な尺度である。
本稿では、既存のエンドツーエンドASRモデルに基づいて、信頼度推定モジュール(CEM)という軽量で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-22T04:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。