論文の概要: Short-Window Sliding Learning for Real-Time Violence Detection via LLM-based Auto-Labeling
- arxiv url: http://arxiv.org/abs/2511.10866v1
- Date: Fri, 14 Nov 2025 00:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.375095
- Title: Short-Window Sliding Learning for Real-Time Violence Detection via LLM-based Auto-Labeling
- Title(参考訳): LLMによる短時間スライディング学習によるリアルタイムビオレンス検出
- Authors: Seoik Jung, Taekyung Song, Yangro Lee, Sungjun Lee,
- Abstract要約: 本稿では,CCTV映像におけるリアルタイム暴力検出のためのショートウィンドウスライディング学習フレームワークを提案する。
提案手法は,動画を1~2秒のクリップに分割し,Large Language Model(LLM)に基づく自動キャプションラベリングを適用し,詳細なデータセットを構築する。
- 参考スコア(独自算出の注目度): 0.6999740786886536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a Short-Window Sliding Learning framework for real-time violence detection in CCTV footages. Unlike conventional long-video training approaches, the proposed method divides videos into 1-2 second clips and applies Large Language Model (LLM)-based auto-caption labeling to construct fine-grained datasets. Each short clip fully utilizes all frames to preserve temporal continuity, enabling precise recognition of rapid violent events. Experiments demonstrate that the proposed method achieves 95.25\% accuracy on RWF-2000 and significantly improves performance on long videos (UCF-Crime: 83.25\%), confirming its strong generalization and real-time applicability in intelligent surveillance systems.
- Abstract(参考訳): 本稿では,CCTV映像におけるリアルタイム暴力検出のためのショートウィンドウ・スライディング学習フレームワークを提案する。
従来の長ビデオトレーニング手法とは異なり、提案手法では動画を1-2秒のクリップに分割し、Large Language Model(LLM)ベースの自動カプセルラベリングを適用して詳細なデータセットを構築する。
各ショートクリップは、時間的連続性を維持するために全てのフレームを完全に利用し、急激な暴力的な出来事を正確に認識することを可能にする。
実験により,提案手法はRWF-2000において95.25\%の精度を実現し,長時間ビデオ(UCF-Crime:83.25\%)の性能を大幅に向上し,インテリジェント監視システムにおけるその強力な一般化とリアルタイム適用性を確認した。
関連論文リスト
- ChronoForge-RL: Chronological Forging through Reinforcement Learning for Enhanced Video Understanding [2.28438857884398]
我々はChronoForge-RLと呼ばれる新しいビデオ理解フレームワークを提案する。
テンポラルアペックス蒸留(TAD)とキーフレーム対応グループ相対政策最適化(KF-GRPO)を組み合わせる。
提案したChronoForge-RLは,ビデオMMEでは69.1%,LVBenchでは52.7%,ベースライン法では52.7%である。
論文 参考訳(メタデータ) (2025-09-19T09:27:24Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Automatic Detection of Intro and Credits in Video using CLIP and Multihead Attention [0.0]
本稿では,シーケンス・ツー・シーケンスの分類タスクとして問題を定式化する深層学習に基づく手法を提案する。
提案手法は,フレームを1FPSの固定レートで抽出し,CLIPを用いて符号化し,マルチヘッドアテンションモデルを用いて特徴表現を処理する。
このシステムは91.0%のF1スコア、89.0%の精度、テストセットでの97.0%のリコールを実現し、リアルタイム推論に最適化されている。
論文 参考訳(メタデータ) (2025-04-13T22:08:18Z) - PESFormer: Boosting Macro- and Micro-expression Spotting with Direct Timestamp Encoding [19.006364251731753]
PESFormerは、ポイント・ツー・インターバル式スポッティングを実現するビジョン・トランスフォーマーアーキテクチャに基づくモデルである。
PESFormerは、アンカーを置き換えるために直接タイムスタンプ符号化(DTE)アプローチを採用し、各タイムスタンプのバイナリ分類を可能にする。
我々は、未編集のトレーニングビデオをゼロパディングして、一定期間の均一で長いビデオを作成する戦略を実装した。
論文 参考訳(メタデータ) (2024-10-24T12:45:25Z) - Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via
Interpolated Weight Optimization [82.75718846187685]
我々は、CLIPを強力なゼロショットビデオ分類器に変換する、シンプルで効果的なアプローチであるOpen-VCLIPを紹介する。
我々は,Open-VCLIPのトレーニングが,履歴データゼロの連続学習と等価であることを示す。
特に、UCF、HMDB、Kinetics-600データセットで87.9%、58.3%、81.1%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2023-02-01T17:44:17Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。