Fugu-MT 論文翻訳(概要): Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection

論文の概要: Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection

arxiv url: http://arxiv.org/abs/2405.05130v1
Date: Wed, 8 May 2024 15:27:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-09 14:14:56.325187
Title: Multi-scale Bottleneck Transformer for Weakly Supervised Multimodal Violence Detection
Title（参考訳）: 弱監視マルチモーダルビオレンス検出のためのマルチスケールブートネック変換器
Authors: Shengyang Sun, Xiaojin Gong,
Abstract要約: 弱教師付きマルチモーダル暴力検出は、複数のモダリティを活用することで暴力検出モデルを学ぶことを目的としている。本稿では,情報冗長性,モダリティの不均衡,モダリティの非同期性といった課題に明示的に対処する,弱教師付きMVD法を提案する。最大規模のXD-Violenceデータセットの実験により,提案手法が最先端の性能を実現することを示す。
参考スコア（独自算出の注目度）: 9.145305176998447
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weakly supervised multimodal violence detection aims to learn a violence detection model by leveraging multiple modalities such as RGB, optical flow, and audio, while only video-level annotations are available. In the pursuit of effective multimodal violence detection (MVD), information redundancy, modality imbalance, and modality asynchrony are identified as three key challenges. In this work, we propose a new weakly supervised MVD method that explicitly addresses these challenges. Specifically, we introduce a multi-scale bottleneck transformer (MSBT) based fusion module that employs a reduced number of bottleneck tokens to gradually condense information and fuse each pair of modalities and utilizes a bottleneck token-based weighting scheme to highlight more important fused features. Furthermore, we propose a temporal consistency contrast loss to semantically align pairwise fused features. Experiments on the largest-scale XD-Violence dataset demonstrate that the proposed method achieves state-of-the-art performance. Code is available at https://github.com/shengyangsun/MSBT.
Abstract（参考訳）: 弱教師付きマルチモーダル暴力検出は、RGB、光フロー、オーディオなどの複数のモダリティを活用することで暴力検出モデルを学ぶことを目的としており、ビデオレベルのアノテーションのみが利用可能である。効果的なマルチモーダル暴力検出(MVD)の追求において,情報冗長性,モダリティの不均衡,モダリティの非同期性は3つの重要な課題である。そこで本研究では,これらの課題に対処する弱教師付きMVD法を提案する。具体的には,マルチスケール・ボトルネック・トランスフォーマー (MSBT) ベースの核融合モジュールを導入し,情報を徐々に凝縮し,各対のモダリティを融合させ,より重要な融合特徴を強調するためにボトルネック・トークンベースの重み付け方式を利用する。さらに,相互に融合した特徴を意味的に整合させる時間的コントラスト損失を提案する。最大規模のXD-Violenceデータセットの実験により,提案手法が最先端の性能を実現することを示す。コードはhttps://github.com/shengyangsun/MSBTで入手できる。

関連論文リスト

Attention-Based Multiscale Temporal Fusion Network for Uncertain-Mode Fault Diagnosis in Multimode Processes [1.9389881806157316]
マルチモードプロセスにおける故障診断は,産業システムの安全な運転を保証する上で重要な役割を担っている。つまり、複数のモードからのモニタリングデータの間に大きな分散的な違いがあるのです。本稿では,注目型マルチスケール時間融合ネットワークという新しい手法を提案する。提案モデルでは診断性能が向上し,小型モデルサイズを維持している。
論文参考訳（メタデータ） (2025-04-07T15:16:22Z)
Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。実験では、教師なしマルチビュークラスタリング、ノイズラベル分類、およびクロスモーダルハッシュ検索のためのプラグ・アンド・プレイモジュールとして採用する。
論文参考訳（メタデータ） (2025-03-06T07:01:08Z)
Multimodal Task Representation Memory Bank vs. Catastrophic Forgetting in Anomaly Detection [6.991692485111346]
教師なし連続異常検出(UCAD)はマルチタスク表現学習において大きな課題に直面している。本稿では,MTRMB(Multimodal Task Representation Memory Bank)方式を提案する。 MVtec AD と VisA データセットの実験では、MTRMB の優位性が示され、平均検出精度は 0.921 である。
論文参考訳（メタデータ） (2025-02-10T06:49:54Z)
Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method [11.01048485795428]
そこで我々は,新たな暴力検出フレームワークを提案する。一助多目的学習(unimodal multiple-instance learning)は、一助多目的学習(unimodal semantic features)、多モーダルアライメント(multimodal alignment)、多モーダル融合(multimodal fusion)、最終検出(final detection)からなる。ベンチマークデータセットによる実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2025-01-13T17:14:25Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
Dynamic Multimodal Information Bottleneck for Multimodality Classification [26.65073424377933]
本稿では,頑健な融合特徴表現を実現するための動的マルチモーダル情報ボトルネックフレームワークを提案する。具体的には、情報ボトルネックモジュールは、融合機能におけるタスク関連情報やノイズをフィルタリングするのに役立ちます。提案手法は最先端の手法を超越し, 大規模ノイズチャネルが存在する場合, 性能を維持できる唯一の手法である。
論文参考訳（メタデータ） (2023-11-02T08:34:08Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-09-09T04:40:01Z)
Cross-modal Orthogonal High-rank Augmentation for RGB-Event Transformer-trackers [58.802352477207094]
本研究では,2つのモード間の分布ギャップを埋めるために,事前学習された視覚変換器(ViT)の潜在可能性を探る。本研究では,いくつかのトークンの特定のモダリティをランダムにマスキングし,異なるモダリティのトークン間の相互作用を積極的に行うマスクモデリング戦略を提案する。実験により,我々のプラグアンドプレイトレーニング強化技術は,追跡精度と成功率の両方の観点から,最先端のワンストリームと2つのトラッカーストリームを大幅に向上させることができることが示された。
論文参考訳（メタデータ） (2023-07-09T08:58:47Z)
Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文参考訳（メタデータ） (2023-03-01T15:48:27Z)
MS-DETR: Multispectral Pedestrian Detection Transformer with Loosely Coupled Fusion and Modality-Balanced Optimization [43.04788370184486]
ミスアライメントとモダリティの不均衡は多スペクトル歩行者検出において最も重要な問題です MS-DETRは2つのモダリティ固有のバックボーンとトランスフォーマーエンコーダで構成され、その後マルチモーダルトランスフォーマーデコーダが続く。我々のエンドツーエンドのMS-DETRは、挑戦的なKAIST、CVC-14、LLVIPベンチマークデータセットよりも優れた性能を示している。
論文参考訳（メタデータ） (2023-02-01T07:45:10Z)
LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。 3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文参考訳（メタデータ） (2021-12-03T03:43:18Z)
StreaMulT: Streaming Multimodal Transformer for Heterogeneous and Arbitrary Long Sequential Data [0.0]
StreaMulTは、クロスモーダルアテンションとメモリバンクに依存するストリーミングマルチモーダルトランスであり、トレーニング時に任意に長い入力シーケンスを処理し、推論時にストリーミング形式で実行する。 StreaMulTは、Multimodal Sentiment Analysisタスク用のCMU-MOSEIデータセットの最先端メトリクスを改善し、他のマルチモーダルモデルよりもはるかに長い入力を処理することができる。
論文参考訳（メタデータ） (2021-10-15T11:32:17Z)
Efficient Two-Stream Network for Violence Detection Using Separable Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。 SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文参考訳（メタデータ） (2021-02-21T12:01:48Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。