論文の概要: Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic
Space
- arxiv url: http://arxiv.org/abs/2305.18797v2
- Date: Fri, 2 Jun 2023 04:11:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 18:49:38.240661
- Title: Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic
Space
- Title(参考訳): 双曲空間における弱教師付き視聴覚暴力検出の学習
- Authors: Xiaogang Peng, Hao Wen, Yikai Luo, Xiao Zhou, Keyang Yu, Yigang Wang,
Zizhao Wu
- Abstract要約: HyperVDは、モデル識別を改善するために、双曲空間にスニペットの埋め込みを学ぶ新しいフレームワークである。
我々のフレームワークはマルチモーダル核融合のためのデトゥール核融合モジュールで構成されている。
この空間でスニペット表現を学習することで、このフレームワークは暴力的な出来事と通常の出来事のセマンティックな差異を効果的に学習する。
- 参考スコア(独自算出の注目度): 9.799364805621128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the task of weakly supervised audio-visual violence
detection has gained considerable attention. The goal of this task is to
identify violent segments within multimodal data based on video-level labels.
Despite advances in this field, traditional Euclidean neural networks, which
have been used in prior research, encounter difficulties in capturing highly
discriminative representations due to limitations of the feature space. To
overcome this, we propose HyperVD, a novel framework that learns snippet
embeddings in hyperbolic space to improve model discrimination. Our framework
comprises a detour fusion module for multimodal fusion, effectively alleviating
modality inconsistency between audio and visual signals. Additionally, we
contribute two branches of fully hyperbolic graph convolutional networks that
excavate feature similarities and temporal relationships among snippets in
hyperbolic space. By learning snippet representations in this space, the
framework effectively learns semantic discrepancies between violent and normal
events. Extensive experiments on the XD-Violence benchmark demonstrate that our
method outperforms state-of-the-art methods by a sizable margin.
- Abstract(参考訳): 近年,音声・視覚的暴力検出の弱さが注目されている。
このタスクの目的は、ビデオレベルのラベルに基づいて、マルチモーダルデータ内の暴力的セグメントを特定することである。
この分野の進歩にもかかわらず、以前の研究で使われた伝統的なユークリッドニューラルネットワークは、特徴空間の制限のために、高度に差別的な表現を捉えるのが困難である。
そこで我々は,双曲空間におけるスニペット埋め込みを学習し,モデル識別を改善する新しいフレームワークhypervdを提案する。
本フレームワークはマルチモーダル融合のためのdetour fusionモジュールから成り,オーディオ信号と視覚信号間の不整合を効果的に緩和する。
さらに,双曲空間におけるスニペット間の特徴的類似性と時間的関係を推定する,完全双曲グラフ畳み込みネットワークの2つの分枝を寄与する。
この空間でスニペット表現を学習することで、このフレームワークは暴力的な出来事と通常の出来事のセマンティックな差異を効果的に学習する。
XD-Violenceベンチマークの大規模な実験により,本手法は最先端の手法よりも大きなマージンで優れていることが示された。
関連論文リスト
- Beyond Euclidean: Dual-Space Representation Learning for Weakly Supervised Video Violence Detection [41.37736889402566]
我々は、弱教師付きビデオビオレンス検出(VVD)のための新しいデュアルスペース表現学習法(DSRL)を開発した。
本手法は,事象の視覚的特徴を捉えるとともに,事象間の内在的関係を探究し,特徴の識別能力を高める。
論文 参考訳(メタデータ) (2024-09-28T05:54:20Z) - Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection [9.145305176998447]
弱教師付きマルチモーダル暴力検出は、複数のモダリティを活用することで暴力検出モデルを学ぶことを目的としている。
本稿では,情報冗長性,モダリティの不均衡,モダリティの非同期性といった課題に明示的に対処する,弱教師付きMVD法を提案する。
最大規模のXD-Violenceデータセットの実験により,提案手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-08T15:27:08Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z) - MC-LCR: Multi-modal contrastive classification by locally correlated
representations for effective face forgery detection [11.124150983521158]
局所的関連表現を用いたマルチモーダルコントラスト分類法を提案する。
我々のMC-LCRは、空間領域と周波数領域の両方から真偽顔と偽顔の暗黙の局所的不一致を増幅することを目的としている。
我々は最先端の性能を達成し,本手法の堅牢性と一般化を実証する。
論文 参考訳(メタデータ) (2021-10-07T09:24:12Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - DIRV: Dense Interaction Region Voting for End-to-End Human-Object
Interaction Detection [53.40028068801092]
本稿では,HOI問題に対するインタラクション領域という新しい概念に基づいて,新しい一段階HOI検出手法を提案する。
従来の手法とは異なり,本手法は人-物対ごとに異なるスケールにわたる密集した相互作用領域に焦点をあてる。
単一相互作用領域の検出欠陥を補うために,我々は新しい投票戦略を導入する。
論文 参考訳(メタデータ) (2020-10-02T13:57:58Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。