Fugu-MT 論文翻訳(概要): AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection

論文の概要: AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection

arxiv url: http://arxiv.org/abs/2504.04495v1
Date: Sun, 06 Apr 2025 13:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-16 01:22:14.453455
Title: AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection
Title（参考訳）: AVadCLIP:ロバストビデオ異常検出のためのオーディオ・ビジュアル協調
Authors: Peng Wu, Wanshun Su, Guansong Pang, Yujia Sun, Qingsen Yan, Peng Wang, Yanning Zhang,
Abstract要約: 本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
参考スコア（独自算出の注目度）: 57.649223695021114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the increasing adoption of video anomaly detection in intelligent surveillance domains, conventional visual-based detection approaches often struggle with information insufficiency and high false-positive rates in complex environments. To address these limitations, we present a novel weakly supervised framework that leverages audio-visual collaboration for robust video anomaly detection. Capitalizing on the exceptional cross-modal representation learning capabilities of Contrastive Language-Image Pretraining (CLIP) across visual, audio, and textual domains, our framework introduces two major innovations: an efficient audio-visual fusion that enables adaptive cross-modal integration through lightweight parametric adaptation while maintaining the frozen CLIP backbone, and a novel audio-visual prompt that dynamically enhances text embeddings with key multimodal information based on the semantic correlation between audio-visual features and textual labels, significantly improving CLIP's generalization for the video anomaly detection task. Moreover, to enhance robustness against modality deficiency during inference, we further develop an uncertainty-driven feature distillation module that synthesizes audio-visual representations from visual-only inputs. This module employs uncertainty modeling based on the diversity of audio-visual features to dynamically emphasize challenging features during the distillation process. Our framework demonstrates superior performance across multiple benchmarks, with audio integration significantly boosting anomaly detection accuracy in various scenarios. Notably, with unimodal data enhanced by uncertainty-driven distillation, our approach consistently outperforms current unimodal VAD methods.
Abstract（参考訳）: インテリジェントな監視ドメインにおけるビデオ異常検出の導入の増加に伴い、従来の視覚ベースの検出アプローチは、複雑な環境での情報不足と高い偽陽性率に悩まされることが多い。これらの制約に対処するために,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。コントラスト言語-画像事前学習(CLIP)の視覚的,音声的,テキスト的領域にわたる例外的クロスモーダル表現学習機能を活用し,凍結したCLIPバックボーンを維持しながら,軽量パラメトリック適応による適応的クロスモーダル統合を実現する効率的なオーディオ-視覚融合と,音声-視覚的特徴とテキスト的ラベルのセマンティックな相関に基づくキーマルチモーダル情報によるテキスト埋め込みを動的に強化する新しいオーディオ-視覚的プロンプトと,CLIPによるビデオ異常検出タスクの一般化を著しく改善した。さらに,推論中のモダリティ不足に対するロバスト性を高めるため,視覚のみの入力から音声視覚表現を合成する不確実性駆動型特徴蒸留モジュールを開発した。本モジュールは, 蒸留工程における難易度を動的に強調するために, 音声・視覚的特徴の多様性に基づく不確実性モデリングを用いる。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,音声統合により各種シナリオにおける異常検出精度が著しく向上する。特に不確実性による蒸留により単調なデータが向上したことにより,本手法は現在の単調なVAD法より一貫して優れている。

関連論文リスト

GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。 DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。 MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文参考訳（メタデータ） (2025-08-03T10:44:24Z)
Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
Mitigating Audiovisual Mismatch in Visual-Guide Audio Captioning [37.17910848101769]
現在の視覚誘導型オーディオキャプションシステムは、現実のシナリオにおけるオーディオヴィジュアル・アライメントに対処できない。本稿では,モーダルな不確実性定量化を通じて視覚情報の流れを動的に変調するエントロピー対応ゲート融合フレームワークを提案する。また,合成ミスマッチ学習ペアを生成するバッチワイドオーディオ視覚シャッフル技術を開発した。
論文参考訳（メタデータ） (2025-05-28T07:08:17Z)
DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文参考訳（メタデータ） (2025-04-14T10:17:25Z)
Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds [72.83227312675174]
本稿では,音声・視覚的事象知覚領域に対するモデルに依存しないアプローチを提案する。我々のアプローチには、よりリッチなマルチモーダル相互作用を維持するためのスコアレベル融合技術が含まれている。また,音声・視覚イベント知覚のための学習自由なオープン語彙ベースラインも提示する。
論文参考訳（メタデータ） (2025-03-17T20:06:48Z)
DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap [38.5017989456818]
DiffGAPは、軽量な生成モジュールをコントラスト空間に組み込んだ新しいアプローチである。 VGGSoundとAudioCapsのデータセットによる実験結果から,DiffGAPはビデオ/テキスト・オーディオ生成および検索タスクの性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-03-15T13:24:09Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T06:06:55Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文参考訳（メタデータ） (2023-08-16T11:20:23Z)
Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。 WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文参考訳（メタデータ） (2023-07-05T05:55:10Z)
Probing Visual-Audio Representation for Video Highlight Detection via Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文参考訳（メタデータ） (2022-06-21T07:29:37Z)
Multi-Modal Perception Attention Network with Self-Supervised Learning for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。 MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文参考訳（メタデータ） (2021-12-14T14:14:17Z)
MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文参考訳（メタデータ） (2021-01-11T02:57:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。