論文の概要: Enhancing Weakly Supervised Multimodal Video Anomaly Detection through Text Guidance
- arxiv url: http://arxiv.org/abs/2602.10549v1
- Date: Wed, 11 Feb 2026 05:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.497923
- Title: Enhancing Weakly Supervised Multimodal Video Anomaly Detection through Text Guidance
- Title(参考訳): テキスト誘導による弱められたマルチモーダルビデオ異常検出の強化
- Authors: Shengyang Sun, Jiashen Hua, Junyi Feng, Xiaojin Gong,
- Abstract要約: テキストは明示的な意味情報を提供し、異常な特徴を高め、誤報を減らすことができる。
汎用言語モデルが異常な特定のニュアンスをキャプチャできないため、効果的なテキスト特徴の抽出は困難である。
マルチモーダル核融合はしばしば冗長性と不均衡に悩まされる。
- 参考スコア(独自算出の注目度): 10.079930398169205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised multimodal video anomaly detection has gained significant attention, yet the potential of the text modality remains under-explored. Text provides explicit semantic information that can enhance anomaly characterization and reduce false alarms. However, extracting effective text features is challenging due to the inability of general-purpose language models to capture anomaly-specific nuances and the scarcity of relevant descriptions. Furthermore, multimodal fusion often suffers from redundancy and imbalance. To address these issues, we propose a novel text-guided framework. First, we introduce an in-context learning-based multi-stage text augmentation mechanism to generate high-quality anomaly text samples for fine-tuning the text feature extractor. Second, we design a multi-scale bottleneck Transformer fusion module that uses compressed bottleneck tokens to progressively integrate information across modalities, mitigating redundancy and imbalance. Experiments on UCF-Crime and XD-Violence demonstrate state-of-the-art performance.
- Abstract(参考訳): 弱教師付きマルチモーダルビデオ異常検出は注目されているが、テキストモダリティの可能性はまだ未調査である。
テキストは明示的な意味情報を提供し、異常な特徴を高め、誤報を減らすことができる。
しかし, 汎用言語モデルでは, 異常固有ニュアンスを捉えることができず, 関連する記述が不足しているため, 有効なテキスト特徴の抽出は困難である。
さらに、マルチモーダル核融合はしばしば冗長性と不均衡に悩まされる。
これらの問題に対処するため、我々は新しいテキスト誘導フレームワークを提案する。
まず,テキスト特徴抽出器を微調整するための高品質なテキストサンプルを生成するための,テキスト内学習に基づく多段階テキスト拡張機構を提案する。
第2に,圧縮されたボトルネックトークンを用いたマルチスケール・ボトルネック・トランスフォーマー・フュージョン・モジュールを設計し,モダリティ間の情報統合,冗長性と不均衡の軽減を図る。
UCF-CrimeとXD-Violenceの実験は最先端の性能を示している。
関連論文リスト
- PromptMAD: Cross-Modal Prompting for Multi-Class Visual Anomaly Localization [9.018570847586878]
本稿では,教師なし視覚異常検出と局所化のためのクロスモーダルプロンプトフレームワークPromptMADを提案する。
本手法は,意味的コンテキストによる視覚的再構成を強化し,微妙・テクスチュラルな異常の検出を改善する。
我々のアーキテクチャには、マルチスケールの畳み込み機能とトランスフォーマーに基づく空間的注意を融合させる教師付きセグメンタも含まれている。
論文 参考訳(メタデータ) (2026-01-30T03:04:06Z) - Multimodal Rumor Detection Enhanced by External Evidence and Forgery Features [21.522558828688343]
ソーシャルメディアは、画像テキストの混合投稿を通じて情報を広める傾向が強まっている。
深いセマンティックなミスマッチの噂は、特定の課題を引き起こし、オンラインの世論を脅かす。
既存のマルチモーダル噂検出手法は,限られた特徴抽出,ノイズアライメント,非フレキシブル融合戦略に悩まされている。
外部証拠と偽造特徴を付加したマルチモーダルな噂検出モデルを提案する。
論文 参考訳(メタデータ) (2026-01-21T12:53:18Z) - GMFVAD: Using Grained Multi-modal Feature to Improve Video Anomaly Detection [63.16754542429089]
我々は、ビデオ異常検出のためのグラインドマルチモーダル特徴(GMFVAD)を提案する。
主要なコンテンツを要約したビデオスニペットに基づいて、よりきめ細かいマルチモーダル機能を生成する。
実験により、GMFVADは主に4つのデータセットで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-10-23T06:52:53Z) - Beyond Simple Fusion: Adaptive Gated Fusion for Robust Multimodal Sentiment Analysis [27.11612547025828]
textbfAdaptive textbfGated textbfFusion textbfNetwork。
CMU-MOSIとCMU-MOSEIの実験により、AGFNは精度において強いベースラインを著しく上回り、頑健なパフォーマンスを持つ微妙な感情を効果的に識別することを示した。
論文 参考訳(メタデータ) (2025-10-02T05:05:41Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection [9.145305176998447]
弱教師付きマルチモーダル暴力検出は、複数のモダリティを活用することで暴力検出モデルを学ぶことを目的としている。
本稿では,情報冗長性,モダリティの不均衡,モダリティの非同期性といった課題に明示的に対処する,弱教師付きMVD法を提案する。
最大規模のXD-Violenceデータセットの実験により,提案手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-08T15:27:08Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - A novel multimodal dynamic fusion network for disfluency detection in
spoken utterances [43.79216238760557]
個人発話からの拡散検出のための新しいマルチモーダルアーキテクチャを提案する。
我々のアーキテクチャは、既存のテキストエンコーダに最小限のパラメータを追加するマルチモーダルダイナミックフュージョンネットワークを活用している。
提案手法は, 広範に使われている英語スイッチボードを用いて, ディフルエンシ検出のための最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-11-27T01:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。