論文の概要: Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model
- arxiv url: http://arxiv.org/abs/2209.11477v1
- Date: Fri, 23 Sep 2022 08:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 16:52:00.186740
- Title: Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model
- Title(参考訳): 深層映像戦検出モデルのための2段階訓練法
- Authors: Zhenting Qi, Ruike Zhu, Zheyu Fu, Wenhao Chai, Volodymyr Kindratenko
- Abstract要約: ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fight detection in videos is an emerging deep learning application with
today's prevalence of surveillance systems and streaming media. Previous work
has largely relied on action recognition techniques to tackle this problem. In
this paper, we propose a simple but effective method that solves the task from
a new perspective: we design the fight detection model as a composition of an
action-aware feature extractor and an anomaly score generator. Also,
considering that collecting frame-level labels for videos is too laborious, we
design a weakly supervised two-stage training scheme, where we utilize
multiple-instance-learning loss calculated on video-level labels to train the
score generator, and adopt the self-training technique to further improve its
performance. Extensive experiments on a publicly available large-scale dataset,
UBI-Fights, demonstrate the effectiveness of our method, and the performance on
the dataset exceeds several previous state-of-the-art approaches. Furthermore,
we collect a new dataset, VFD-2000, that specializes in video fight detection,
with a larger scale and more scenarios than existing datasets. The
implementation of our method and the proposed dataset will be publicly
available at https://github.com/Hepta-Col/VideoFightDetection.
- Abstract(参考訳): ビデオ中のファイト検出は、現在監視システムやストリーミングメディアが普及しているディープラーニングアプリケーションだ。
これまでの研究は、この問題に取り組むための行動認識技術に大きく依存してきた。
本稿では,アクション認識機能抽出器と異常スコア生成器の組み合わせとして,戦闘検出モデルを設計する。
また,映像のフレームレベルラベルの収集には手間がかかりすぎることを考慮し,ビデオレベルラベルで計算した複数入力学習損失をスコア生成器の訓練に活用し,自己学習技術を適用し,その性能をさらに向上させる2段階学習方式を考案した。
一般公開された大規模データセットであるUBI-Fightsの大規模な実験により,本手法の有効性が実証された。
さらに,既存のデータセットよりも大規模でシナリオが多いビデオバトル検出に特化した新たなデータセットであるVFD-2000を収集する。
私たちのメソッドと提案されたデータセットの実装は、https://github.com/Hepta-Col/VideoFightDetectionで公開されます。
関連論文リスト
- Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。
提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文 参考訳(メタデータ) (2023-06-12T05:49:23Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Detection of Fights in Videos: A Comparison Study of Anomaly Detection
and Action Recognition [3.8073142980733]
本稿では,ビデオ中のケンカの検出を,異常検出の特殊なタイプとして,また2値のアクション認識として検討する。
異常検出は,動作認識と同等あるいはそれ以上の性能を有することがわかった。
実験結果から,3つの戦闘検出データセットの最先端性能が得られた。
論文 参考訳(メタデータ) (2022-05-23T15:41:02Z) - Cross-category Video Highlight Detection via Set-based Learning [55.49267044910344]
本稿では,Dual-Learner-based Video Highlight Detection (DL-VHD) フレームワークを提案する。
対象とするカテゴリビデオの区別と,ソースビデオカテゴリにおけるハイライトモーメントの特徴を学習する。
さまざまなカテゴリのハイライト検出タスクにおいて、一般的な5つのUnsupervised Domain Adaptation (UDA)アルゴリズムより優れています。
論文 参考訳(メタデータ) (2021-08-26T13:06:47Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。