論文の概要: Federated Learning for Video Violence Detection: Complementary Roles of Lightweight CNNs and Vision-Language Models for Energy-Efficient Use
- arxiv url: http://arxiv.org/abs/2511.07171v1
- Date: Mon, 10 Nov 2025 15:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.314018
- Title: Federated Learning for Video Violence Detection: Complementary Roles of Lightweight CNNs and Vision-Language Models for Energy-Efficient Use
- Title(参考訳): ビデオビオレンス検出のためのフェデレーション学習:エネルギー効率向上のための軽量CNNとビジョンランゲージモデルの相補的役割
- Authors: Sébastien Thuau, Siba Haidar, Rachid Chelouah,
- Abstract要約: フェデレーション学習は、プライバシを保存するが、大きなビジョン保存モデル(VLM)をデプロイすることは、大きなエネルギーと持続可能性の課題をもたらす。
RWF-2000データセットとRLVSデータセット上で、現実的な非IID分割の下での連邦暴力検出の3つの戦略を比較した。
すべての方法がバイナリ暴力検出において90%以上の精度を達成している。
- 参考スコア(独自算出の注目度): 0.30586855806896035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning-based video surveillance increasingly demands privacy-preserving architectures with low computational and environmental overhead. Federated learning preserves privacy but deploying large vision-language models (VLMs) introduces major energy and sustainability challenges. We compare three strategies for federated violence detection under realistic non-IID splits on the RWF-2000 and RLVS datasets: zero-shot inference with pretrained VLMs, LoRA-based fine-tuning of LLaVA-NeXT-Video-7B, and personalized federated learning of a 65.8M-parameter 3D CNN. All methods exceed 90% accuracy in binary violence detection. The 3D CNN achieves superior calibration (ROC AUC 92.59%) at roughly half the energy cost (240 Wh vs. 570 Wh) of federated LoRA, while VLMs provide richer multimodal reasoning. Hierarchical category grouping (based on semantic similarity and class exclusion) boosts VLM multiclass accuracy from 65.31% to 81% on the UCF-Crime dataset. To our knowledge, this is the first comparative simulation study of LoRA-tuned VLMs and personalized CNNs for federated violence detection, with explicit energy and CO2e quantification. Our results inform hybrid deployment strategies that default to efficient CNNs for routine inference and selectively engage VLMs for complex contextual reasoning.
- Abstract(参考訳): ディープラーニングに基づくビデオ監視は、計算と環境のオーバーヘッドが低いプライバシー保護アーキテクチャをますます要求している。
フェデレーション学習は、プライバシを保存するが、大きなビジョン言語モデル(VLM)のデプロイは、大きなエネルギーと持続可能性の問題をもたらす。
RWF-2000 と RLVS データセット上での現実的な非IID 分割によるフェデレーション暴力検出のための3つの戦略を比較し,事前訓練された VLM を用いたゼロショット推論,LLaVA-NeXT-Video-7B のLORA による微調整,65.8M パラメータ CNN の個人化学習,などを比較した。
すべての方法がバイナリ暴力検出において90%以上の精度を達成している。
3D CNNは、フェデレートされたLoRAのエネルギーコスト(240Wh対570Wh)のほぼ半分で優れたキャリブレーション(ROC AUC 92.59%)を達成し、VLMはよりリッチなマルチモーダル推論を提供する。
階層的なカテゴリグループ化(意味的類似性とクラス排除に基づく)は、UCF-CrimeデータセットでVLMのマルチクラス精度を65.31%から81%に向上させる。
我々の知る限り、これは、明示的なエネルギーとCO2e定量化を備えた、LoRAで調整されたVLMと、連邦暴力検出のためのパーソナライズされたCNNを比較した初めてのシミュレーション研究である。
提案手法は,日常的な推論のための効率的なCNNをデフォルトとし,複雑なコンテキスト推論のためのVLMを選択的に行うハイブリッドデプロイメント戦略である。
関連論文リスト
- VideoSSR: Video Self-Supervised Reinforcement Learning [62.25888935329454]
RLVR(Reinforcement Learning with Verifiable Rewards)は、MLLM(Multimodal Large Language Models)の映像理解能力を大幅に向上させた。
ビデオ内のリッチで本質的な情報は、高品質で検証可能なトレーニングデータの自己生成に利用できますか?
論文 参考訳(メタデータ) (2025-11-09T08:36:40Z) - Frugal Federated Learning for Violence Detection: A Comparison of LoRA-Tuned VLMs and Personalized CNNs [0.27998963147546135]
視覚言語モデル(VLM)のゼロショットとフェデレートされた微調整と、コンパクトな3次元畳み込みニューラルネットワーク(CNN3D)のパーソナライズされたトレーニングを比較した。
リアルな非IID環境下での精度,キャリブレーション,エネルギー使用量を評価した。
これらの結果は, 日常的な分類のための軽量CNNと, 複雑なシナリオや記述シナリオのための選択的VLMアクティベーションのハイブリッドモデルをサポートする。
論文 参考訳(メタデータ) (2025-10-20T15:26:43Z) - Video-Based MPAA Rating Prediction: An Attention-Driven Hybrid Architecture Using Contrastive Learning [0.1749935196721634]
差別と適応性を改善するために、コントラスト学習を採用し、インスタンス識別、コンテキストコントラスト学習、マルチビューコントラスト学習という3つのフレームワークを探索する。
我々のハイブリッドアーキテクチャは、LRCN(CNN+LSTM)バックボーンとバハダナウアテンション機構を統合し、コンテキストコントラスト学習フレームワークで最先端のパフォーマンスを実現し、88%の精度とF1スコアが0.8815である。
NT-Xent, NT-logistic, Triple Margintなど, 各種のコントラスト損失関数に対するモデルの性能評価を行い, 提案アーキテクチャのロバスト性を実証した。
論文 参考訳(メタデータ) (2025-09-08T16:01:02Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - SpaceR: Reinforcing MLLMs in Video Spatial Reasoning [70.7401015322983]
ビデオ空間推論は、既存のマルチモーダル大言語モデル(MLLM)にとって重要な課題である
この制限は主に、1)このタスクに高品質なデータセットがないこと、2)空間推論能力を開発するための効果的なトレーニング戦略がないことに由来する。
空間推論能力のアンロックにおける強化学習(Reinforcement Learning with Verifiable Reward, RLVR)の成功により, RLVRパラダイムを通じて映像空間推論におけるMLLMの改善を目指す。
論文 参考訳(メタデータ) (2025-04-02T15:12:17Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - A Benchmark for Crime Surveillance Video Analysis with Large Models [22.683394427744616]
監視ビデオにおける異常解析はコンピュータビジョンにおいて重要なトピックである。
近年,マルチモーダル大規模言語モデル (MLLM) は様々な領域においてタスク固有モデルよりも優れている。
UCVLと表記される大規模モデルを用いた犯罪監視ビデオ分析のベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-13T13:38:17Z) - Analysis of Real-Time Hostile Activitiy Detection from Spatiotemporal
Features Using Time Distributed Deep CNNs, RNNs and Attention-Based
Mechanisms [0.0]
CCTVカメラシステムによるリアルタイムビデオ監視は、公共の安全を確保するために欠かせないものとなっている。
ディープラーニングビデオ分類技術は、監視システムを自動化して暴力を検知するのに役立ちます。
論文 参考訳(メタデータ) (2023-02-21T22:02:39Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - Support-Set Based Cross-Supervision for Video Grounding [98.29089558426399]
サポートセットベースのクロススーパービジョン(Sscs)モジュールは、追加の推論コストなしでトレーニングフェーズ中に既存のメソッドを改善することができる。
提案するSscsモジュールは、識別的コントラスト目的と生成的キャプション目的の2つの主要成分を含む。
我々は3つの挑戦的データセット上でSscsを広範囲に評価し、我々の手法が最先端の手法を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2021-08-24T08:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。