論文の概要: Frugal Federated Learning for Violence Detection: A Comparison of LoRA-Tuned VLMs and Personalized CNNs
- arxiv url: http://arxiv.org/abs/2510.17651v1
- Date: Mon, 20 Oct 2025 15:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.502551
- Title: Frugal Federated Learning for Violence Detection: A Comparison of LoRA-Tuned VLMs and Personalized CNNs
- Title(参考訳): 暴力検出のためのFrugal Federated Learning: LoRA-Tuned VLMとPersonalized CNNの比較
- Authors: Sébastien Thuau, Siba Haidar, Ayush Bajracharya, Rachid Chelouah,
- Abstract要約: 視覚言語モデル(VLM)のゼロショットとフェデレートされた微調整と、コンパクトな3次元畳み込みニューラルネットワーク(CNN3D)のパーソナライズされたトレーニングを比較した。
リアルな非IID環境下での精度,キャリブレーション,エネルギー使用量を評価した。
これらの結果は, 日常的な分類のための軽量CNNと, 複雑なシナリオや記述シナリオのための選択的VLMアクティベーションのハイブリッドモデルをサポートする。
- 参考スコア(独自算出の注目度): 0.27998963147546135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We examine frugal federated learning approaches to violence detection by comparing two complementary strategies: (i) zero-shot and federated fine-tuning of vision-language models (VLMs), and (ii) personalized training of a compact 3D convolutional neural network (CNN3D). Using LLaVA-7B and a 65.8M parameter CNN3D as representative cases, we evaluate accuracy, calibration, and energy usage under realistic non-IID settings. Both approaches exceed 90% accuracy. CNN3D slightly outperforms Low-Rank Adaptation(LoRA)-tuned VLMs in ROC AUC and log loss, while using less energy. VLMs remain favorable for contextual reasoning and multimodal inference. We quantify energy and CO$_2$ emissions across training and inference, and analyze sustainability trade-offs for deployment. To our knowledge, this is the first comparative study of LoRA-tuned vision-language models and personalized CNNs for federated violence detection, with an emphasis on energy efficiency and environmental metrics. These findings support a hybrid model: lightweight CNNs for routine classification, with selective VLM activation for complex or descriptive scenarios. The resulting framework offers a reproducible baseline for responsible, resource-aware AI in video surveillance, with extensions toward real-time, multimodal, and lifecycle-aware systems.
- Abstract(参考訳): 我々は2つの相補的戦略を比較することにより、暴力検出のためのフラゴール・フェデレーション・ラーニング・アプローチを検討する。
一 視覚言語モデルのゼロショット及びフェデレーション微調整(VLM)及び
(II)コンパクト3次元畳み込みニューラルネットワーク(CNN3D)のパーソナライズされたトレーニング。
LLaVA-7Bと65.8MパラメータCNN3Dを代表例として,現実的な非IID環境下での精度,キャリブレーション,エネルギー使用量を評価する。
どちらのアプローチも90%以上精度が高い。
CNN3D はローランド適応(LoRA)で調整された VLM を ROC AUC でわずかに上回っている。
VLMは文脈推論やマルチモーダル推論に好適である。
トレーニングや推論を通じてエネルギーとCO$2$の排出量を定量化し、サステナビリティのトレードオフを分析します。
我々の知る限り、エネルギー効率と環境指標に重点を置いて、LoRAで調整された視覚言語モデルと、連邦暴力検出のためのパーソナライズされたCNNの比較研究は、これが初めてである。
これらの結果は, 日常的な分類のための軽量CNNと, 複雑なシナリオや記述シナリオのための選択的VLMアクティベーションのハイブリッドモデルをサポートする。
その結果生まれたフレームワークは、ビデオ監視において、責任を負うリソースを意識したAIのための再現可能なベースラインを提供し、リアルタイム、マルチモーダル、ライフサイクル認識システムへの拡張を提供する。
関連論文リスト
- Fine-Tuning Vision-Language Models for Neutrino Event Analysis in High-Energy Physics Experiments [41.33501105382656]
高エネルギー物理実験における画素検出器画像からのニュートリノ相互作用の分類のためのビジョン・ランゲージモデル(VLM)
我々は、NOvAやDUNEなどの実験で使用される確立されたCNNベースラインに対して、その性能をベンチマークし、分類精度、精度、リコール、AUC-ROCなどの指標を評価する。
以上の結果から,VLMはCNNの性能に適合するだけでなく,よりリッチな推論や,補助的なテキストやセマンティックコンテキストの統合も可能であることがわかった。
論文 参考訳(メタデータ) (2025-08-26T19:12:28Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Comprehensive and Comparative Analysis between Transfer Learning and Custom Built VGG and CNN-SVM Models for Wildfire Detection [1.8616107180090005]
本稿では,山火事検出の文脈における伝達学習の有効性と効果について検討する。
Visual Geometry Group (VGG)-7、VGG-10、Convolutional Neural Network (CNN)-Support Vector Machine (SVM) CNN-SVMの3つのモデルが厳密に比較されている。
我々はこれらのモデルを、山火事の複雑さを捉えたデータセットを用いて訓練し、評価した。
論文 参考訳(メタデータ) (2024-11-12T20:30:23Z) - Shedding More Light on Robust Classifiers under the lens of Energy-based Models [3.953603590878949]
我々は、敵対的訓練(AT)のダイナミクスについて、新しい視点を提供する。
ATにおけるエネルギー環境の分析により、標的外攻撃は、モデルの観点からの本来のデータよりも、より分散した(低エネルギー)敵画像を生成することが明らかとなった。
厳格なエビデンスを動機とした重エネルギー教育(WEAT)の提案
論文 参考訳(メタデータ) (2024-07-08T18:31:19Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。