Fugu-MT 論文翻訳(概要): CoLoRSMamba: Conditional LoRA-Steered Mamba for Supervised Multimodal Violence Detection

論文の概要: CoLoRSMamba: Conditional LoRA-Steered Mamba for Supervised Multimodal Violence Detection

arxiv url: http://arxiv.org/abs/2604.03329v1
Date: Thu, 02 Apr 2026 22:14:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:18.515184
Title: CoLoRSMamba: Conditional LoRA-Steered Mamba for Supervised Multimodal Violence Detection
Title（参考訳）: CoLoRSMamba:マルチモーダルビオレンス検出のための条件付きLORAステアリングマンバ
Authors: Damith Chamalke Senadeera, Dimitrios Kollias, Gregory Slabaugh,
Abstract要約: CoLoRSMambaはビデオからオーディオへの指向性アーキテクチャである。 VideoMambaとAudioMambaをCLS誘導条件付きLoRAで結合する。 NTU-CCTVでは88.63%の精度/86.24%のF1-V、DVDでは75.77%の精度/72.94%のF1-Vを達成した。
参考スコア（独自算出の注目度）: 19.705642541798746
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Violence detection benefits from audio, but real-world soundscapes can be noisy or weakly related to the visible scene. We present CoLoRSMamba, a directional Video to Audio multimodal architecture that couples VideoMamba and AudioMamba through CLS-guided conditional LoRA. At each layer, the VideoMamba CLS token produces a channel-wise modulation vector and a stabilization gate that adapt the AudioMamba projections responsible for the selective state-space parameters (Delta, B, C), including the step-size pathway, yielding scene-aware audio dynamics without token-level cross-attention. Training combines binary classification with a symmetric AV-InfoNCE objective that aligns clip-level audio and video embeddings. To support fair multimodal evaluation, we curate audio-filtered clip level subsets of the NTU-CCTV and DVD datasets from temporal annotations, retaining only clips with available audio. On these subsets, CoLoRSMamba outperforms representative audio-only, video-only, and multimodal baselines, achieving 88.63% accuracy / 86.24% F1-V on NTU-CCTV and 75.77% accuracy / 72.94% F1-V on DVD. It further offers a favorable accuracy-efficiency tradeoff, surpassing several larger models with fewer parameters and FLOPs.
Abstract（参考訳）: バイオレンス検出はオーディオから恩恵を受けるが、現実のサウンドスケープは、目に見えるシーンと騒々しい、あるいは弱い関係がある。我々は,ビデオマンバとオーディオマンバをCLS誘導条件付きLoRAで結合した指向性ビデオからオーディオへのマルチモーダルアーキテクチャであるCoLoRSMambaを提案する。各層において、VideoMamba CLSトークンは、チャンネルワイド変調ベクトルと安定化ゲートを生成し、ステップサイズパスを含む選択状態空間パラメータ(Delta, B, C)に責任を負うAudioMambaプロジェクションに適応し、トークンレベルのクロスアテンションなしでシーン認識オーディオダイナミクスを生成する。トレーニングは、バイナリ分類と、クリップレベルのオーディオとビデオの埋め込みを調整する対称的なAV-InfoNCE目標を組み合わせる。適切なマルチモーダル評価をサポートするため,NTU-CCTVとDVDデータセットのオーディオフィルタによるクリップレベルサブセットを時間的アノテーションからキュレートし,利用可能な音声でクリップのみを保持する。これらのサブセットでは、CoLoRSMambaはオーディオのみ、ビデオのみ、マルチモーダルベースラインで88.63%の精度/86.24%のF1-V、75.77%の精度/72.94%のF1-Vを達成した。さらに、より少ないパラメータとFLOPを持ついくつかの大きなモデルを上回る、良好な精度と効率のトレードオフを提供する。

関連論文リスト

LTX-2: Efficient Joint Audio-Visual Foundation Model [3.1804093402153506]
LTX-2は、時間的に同期されたオーディオヴィジュアルコンテンツを生成できるオープンソースモデルである。より広範な理解のために多言語テキストエンコーダを用いる。 LTX-2は、各シーンのキャラクター、環境、スタイル、感情に従うリッチでコヒーレントなオーディオトラックを生成する。
論文参考訳（メタデータ） (2026-01-06T18:24:41Z)
Pushing the Frontier of Audiovisual Perception with Large-Scale Multimodal Correspondence Learning [44.518249924335045]
Perception Audiovisual(PE-AV)は、大規模コントラスト学習で訓練された音声およびビデオ理解のためのエンコーダの新たなファミリーである。 PE上に構築されたPE-AVは、オーディオへの表現の拡張にいくつかの重要な貢献を行い、オーディオ・ビデオ、オーディオ・テキスト、ビデオ・テキスト・モダリティ間の共同埋め込みをサポートする。
論文参考訳（メタデータ） (2025-12-22T18:59:07Z)
AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文参考訳（メタデータ） (2025-01-14T03:20:20Z)
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文参考訳（メタデータ） (2024-12-19T18:57:21Z)
YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。数ショット設定で高品質なオーディオ生成をサポートする。本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文参考訳（メタデータ） (2024-12-12T10:55:57Z)
Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation [17.123212921673176]
本稿では,SAMのエンコーダとマスクデコーダの中間部分に組み込まれた時空間バイビジュアルアテンション(ST-B)モジュールを提案する。ビデオフレームとオーディオストリーム間の時間的対応を伝達するために、オーディオ視覚機能を適応的に更新する。提案手法は, AVSベンチマークの最先端手法, 特に8.3% mIoU が, 挑戦的なマルチソースサブセットよりも優れている。
論文参考訳（メタデータ） (2024-06-10T10:53:23Z)
Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文参考訳（メタデータ） (2024-02-04T03:02:35Z)
STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文参考訳（メタデータ） (2023-10-12T10:50:21Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)
NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文参考訳（メタデータ） (2020-01-30T15:40:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。