論文の概要: Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method
- arxiv url: http://arxiv.org/abs/2501.07496v1
- Date: Mon, 13 Jan 2025 17:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:02.636352
- Title: Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method
- Title(参考訳): マルチモーダルビオレンス検出法の開発
- Authors: Wenping Jin, Li Zhu, Jing Sun,
- Abstract要約: そこで我々は,新たな暴力検出フレームワークを提案する。
一助多目的学習(unimodal multiple-instance learning)は、一助多目的学習(unimodal semantic features)、多モーダルアライメント(multimodal alignment)、多モーダル融合(multimodal fusion)、最終検出(final detection)からなる。
ベンチマークデータセットによる実験結果から,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 11.01048485795428
- License:
- Abstract: Weakly supervised violence detection refers to the technique of training models to identify violent segments in videos using only video-level labels. Among these approaches, multimodal violence detection, which integrates modalities such as audio and optical flow, holds great potential. Existing methods in this domain primarily focus on designing multimodal fusion models to address modality discrepancies. In contrast, we take a different approach; leveraging the inherent discrepancies across modalities in violence event representation to propose a novel multimodal semantic feature alignment method. This method sparsely maps the semantic features of local, transient, and less informative modalities ( such as audio and optical flow ) into the more informative RGB semantic feature space. Through an iterative process, the method identifies the suitable no-zero feature matching subspace and aligns the modality-specific event representations based on this subspace, enabling the full exploitation of information from all modalities during the subsequent modality fusion stage. Building on this, we design a new weakly supervised violence detection framework that consists of unimodal multiple-instance learning for extracting unimodal semantic features, multimodal alignment, multimodal fusion, and final detection. Experimental results on benchmark datasets demonstrate the effectiveness of our method, achieving an average precision (AP) of 86.07% on the XD-Violence dataset. Our code is available at https://github.com/xjpp2016/MAVD.
- Abstract(参考訳): 弱い監視された暴力検出は、ビデオレベルのラベルのみを使用してビデオ内の暴力セグメントを識別する訓練モデルのテクニックを指す。
これらのアプローチの中で、オーディオや光フローなどのモダリティを統合したマルチモーダル暴力検出が大きな可能性を秘めている。
この領域の既存の手法は主に、モダリティの相違に対処するマルチモーダル融合モデルを設計することに焦点を当てている。
対照的に、暴力事象表現におけるモダリティにまたがる固有の不一致を利用して、新しいマルチモーダルなセマンティック特徴アライメント手法を提案する。
本手法は,局所的・過渡的・低情報的モダリティ(音声や光フローなど)のセマンティックな特徴を,より情報的なRGBセマンティックな特徴空間にスパースマッピングする。
反復的プロセスにより、適切な非ゼロ特徴マッチング部分空間を特定し、この部分空間に基づいてモダリティ固有のイベント表現を整列させ、その後のモダリティ融合段階における全てのモダリティからの情報のフル活用を可能にする。
これに基づいて,一助多目的学習(unimodal multiple-instance learning)と多モーダルアライメント(multimodal alignment),多モーダル融合(multimodal fusion),最終検出(final detection)からなる,新たな弱教師付き暴力検出フレームワークを設計する。
XD-Violenceデータセットの平均精度(AP)は86.07%である。
私たちのコードはhttps://github.com/xjpp2016/MAVD.comで公開されています。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark [19.376814754500625]
複雑な産業プロセスにおける異常検出は、効率的で安定で安全な操作を確実にする上で重要な役割を担っている。
本稿では,マグネシウム溶融プロセスにおける視覚特徴(ビデオ)とプロセス変数(電流)の相関を探索し,異常検出を容易にするクロスモーダルトランスを提案する。
本稿では, マグネシウム溶融プロセスの先駆的なクロスモーダルベンチマークを行い, 同期的に取得したビデオデータと電流データを220万以上のサンプルで分析した。
論文 参考訳(メタデータ) (2024-06-13T11:40:06Z) - Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection [9.145305176998447]
弱教師付きマルチモーダル暴力検出は、複数のモダリティを活用することで暴力検出モデルを学ぶことを目的としている。
本稿では,情報冗長性,モダリティの不均衡,モダリティの非同期性といった課題に明示的に対処する,弱教師付きMVD法を提案する。
最大規模のXD-Violenceデータセットの実験により,提案手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-08T15:27:08Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - DiffusionTrack: Diffusion Model For Multi-Object Tracking [15.025051933538043]
マルチオブジェクトトラッキング(MOT)は、単一のフレーム内の個々のオブジェクトを検出し、それらを複数のフレーム間で関連付けることを目的とした、難しい視覚タスクである。
近年のMOT法は,2段階追跡検出法(TBD)と1段階関節検出追跡法(JDT)に分類できる。
本稿では,オブジェクト検出と結合を一貫した認知拡散過程として定式化する,単純だが堅牢なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-19T04:48:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。