論文の概要: Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection
- arxiv url: http://arxiv.org/abs/2207.05500v1
- Date: Tue, 12 Jul 2022 12:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 15:02:53.604324
- Title: Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection
- Title(参考訳): 弱教師付き視聴覚暴力検出のための自己蒸留によるモダリティ認識型コントラストインスタンス学習
- Authors: Jiashuo Yu, Jinyu Liu, Ying Cheng, Rui Feng, Yuejie Zhang
- Abstract要約: 弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
- 参考スコア(独自算出の注目度): 14.779452690026144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised audio-visual violence detection aims to distinguish
snippets containing multimodal violence events with video-level labels. Many
prior works perform audio-visual integration and interaction in an early or
intermediate manner, yet overlooking the modality heterogeneousness over the
weakly-supervised setting. In this paper, we analyze the modality asynchrony
and undifferentiated instances phenomena of the multiple instance learning
(MIL) procedure, and further investigate its negative impact on
weakly-supervised audio-visual learning. To address these issues, we propose a
modality-aware contrastive instance learning with self-distillation (MACIL-SD)
strategy. Specifically, we leverage a lightweight two-stream network to
generate audio and visual bags, in which unimodal background, violent, and
normal instances are clustered into semi-bags in an unsupervised way. Then
audio and visual violent semi-bag representations are assembled as positive
pairs, and violent semi-bags are combined with background and normal instances
in the opposite modality as contrastive negative pairs. Furthermore, a
self-distillation module is applied to transfer unimodal visual knowledge to
the audio-visual model, which alleviates noises and closes the semantic gap
between unimodal and multimodal features. Experiments show that our framework
outperforms previous methods with lower complexity on the large-scale
XD-Violence dataset. Results also demonstrate that our proposed approach can be
used as plug-in modules to enhance other networks. Codes are available at
https://github.com/JustinYuu/MACIL_SD.
- Abstract(参考訳): 弱教師付き音声視覚暴力検出は、マルチモーダル暴力イベントを含むスニペットとビデオレベルのラベルを区別することを目的としている。
多くの先行作品は、初期または中間の方法でオーディオと視覚の統合と相互作用を行い、しかしながら、弱い教師付き設定のモダリティの不均一性を見下ろしている。
本稿では,マルチインスタンス学習 (mil) 手順のモダリティの非同期性と非微分インスタンス現象を分析し,その弱教師付き視聴覚学習への影響について検討する。
これらの課題に対処するために,自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
具体的には、軽量な2ストリームネットワークを利用して音声と視覚のバッグを生成し、その背景、暴力的、正常なインスタンスを教師なしの方法でセミバッグにクラスタ化する。
次に、音声および視覚的暴力的半バッグ表現を正の対として組み立て、暴力的半バッグと反対のモードの背景および正常なインスタンスを対照的な負の対として組み合わせる。
さらに,単調な視覚知識を音響-視覚モデルに伝達するために自己蒸留モジュールを適用し,単調な特徴とマルチモーダルな特徴との間の意味的ギャップを緩和し,閉鎖する。
実験の結果,大規模なXD-Violenceデータセットでは,従来の手法よりも複雑度が低い。
また,提案手法はプラグインモジュールとして他のネットワークを拡張できることを示す。
コードはhttps://github.com/JustinYuu/MACIL_SDで入手できる。
関連論文リスト
- Unsupervised Audio-Visual Segmentation with Modality Alignment [42.613786372067814]
Audio-Visualは、特定の音を生成する視覚シーンのオブジェクトをピクセルレベルで識別することを目的としている。
現在のAVSメソッドは、コストのかかるマスクとオーディオのペアの細かいアノテーションに依存しているため、スケーラビリティには実用的ではない。
そこで本研究では,モダリティ対応アライメント(MoCA)と呼ばれる教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T07:56:09Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic
Space [17.30264225835736]
HyperVDは、モデル識別を改善するために、双曲空間にスニペットの埋め込みを学ぶ新しいフレームワークである。
我々のフレームワークはマルチモーダル核融合のためのデトゥール核融合モジュールで構成されている。
この空間でスニペット表現を学習することで、このフレームワークは暴力的な出来事と通常の出来事のセマンティックな差異を効果的に学習する。
論文 参考訳(メタデータ) (2023-05-30T07:18:56Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video
Parsing [48.87278703876147]
オーディオ・ヴィジュアル・ビデオ解析と呼ばれる新しい問題は、ビデオを時間的なイベントセグメントにパースし、それらを可聴性、可視性、あるいはその両方にラベル付けすることを目指している。
本稿では,一助的・横断的時間的文脈を同時に探索するハイブリッドアテンションネットワークを提案する。
実験結果から,映像レベルが弱いラベルであっても,難易度の高い映像解析が可能であることがわかった。
論文 参考訳(メタデータ) (2020-07-21T01:53:31Z) - Not made for each other- Audio-Visual Dissonance-based Deepfake
Detection and Localization [7.436429318051601]
本稿では,MDS(Modality Dissonance Score)と呼ばれる音声と視覚の相違に基づくディープフェイクビデオの検出を提案する。
MDSは、ビデオ内の音声と視覚セグメント間の相似性のスコアの集合として計算される。
われわれの手法は最先端の技術を7%も上回っている。
論文 参考訳(メタデータ) (2020-05-29T06:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。