論文の概要: Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds
- arxiv url: http://arxiv.org/abs/2308.13866v1
- Date: Sat, 26 Aug 2023 12:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:39:58.216036
- Title: Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds
- Title(参考訳): 3次元スケルトン点雲上でのヒューマンインタラクション学習によるビデオ暴力認識の改善
- Authors: Yukun Su, Guosheng Lin, Qingyao Wu
- Abstract要約: 我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
- 参考スコア(独自算出の注目度): 88.87985219999764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has proved to be very effective in video action recognition.
Video violence recognition attempts to learn the human multi-dynamic behaviours
in more complex scenarios. In this work, we develop a method for video violence
recognition from a new perspective of skeleton points. Unlike the previous
works, we first formulate 3D skeleton point clouds from human skeleton
sequences extracted from videos and then perform interaction learning on these
3D skeleton point clouds. Specifically, we propose two types of Skeleton Points
Interaction Learning (SPIL) strategies: (i) Local-SPIL: by constructing a
specific weight distribution strategy between local regional points, Local-SPIL
aims to selectively focus on the most relevant parts of them based on their
features and spatial-temporal position information. In order to capture diverse
types of relation information, a multi-head mechanism is designed to aggregate
different features from independent heads to jointly handle different types of
relationships between points. (ii) Global-SPIL: to better learn and refine the
features of the unordered and unstructured skeleton points, Global-SPIL employs
the self-attention layer that operates directly on the sampled points, which
can help to make the output more permutation-invariant and well-suited for our
task. Extensive experimental results validate the effectiveness of our approach
and show that our model outperforms the existing networks and achieves new
state-of-the-art performance on video violence datasets.
- Abstract(参考訳): 深層学習はビデオ行動認識において非常に効果的であることが証明されている。
ビデオ暴力認識は、より複雑なシナリオで人間のマルチダイナミックな振る舞いを学習しようと試みる。
本研究では,骨格点の新たな視点から映像暴力認識手法を開発する。
以前の研究とは異なり、まずビデオから抽出された人間の骨格配列から3Dスケルトン点雲を定式化し、これらの3Dスケルトン点雲上で相互作用学習を行う。
具体的には,2種類のSkeleton Points Interaction Learning(SPIL)戦略を提案する。
(i)局所SPIL:局所的な点間の比重分布戦略を構築することにより、その特徴と空間的位置情報に基づいて、最も関連性の高い部分に集中することを目的とする。
多様な関係情報を取り込むため、マルチヘッド機構は独立した頭部から異なる特徴を集約し、点間の関係の異なる種類を協調的に扱うように設計されている。
(ii)Global-SPIL:非順序および非構造的骨格点の特徴をよりよく学習し、洗練するために、Global-SPILはサンプル点を直接操作する自己アテンション層を用いており、それによって出力の置換不変性を向上し、我々のタスクに適している。
大規模実験により,本手法の有効性を検証し,既存のネットワークより優れ,ビデオ暴力データセット上での新たな最先端性能を実現することを示す。
関連論文リスト
- CLR-GAM: Contrastive Point Cloud Learning with Guided Augmentation and
Feature Mapping [12.679625717350113]
本稿では、効率的な動的探索戦略のためのガイド拡張(GA)を備えた対照的な学習ベースのフレームワークであるCLR-GAMを提案する。
提案手法がシミュレーションおよび実世界の3Dポイントクラウドデータセット上で最先端のパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2023-02-28T04:38:52Z) - Action Keypoint Network for Efficient Video Recognition [63.48422805355741]
本稿では、時間的・空間的な選択をアクションキーポイントネットワーク(AK-Net)に統合することを提案する。
AK-Netは、アクションキーポイントのセットとして任意の形状の領域に散在する情報的ポイントを選択し、ビデオ認識をポイントクラウド分類に変換する。
実験結果から,AK-Netは複数のビデオ認識ベンチマークにおいて,ベースライン手法の効率と性能を一貫して向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-17T09:35:34Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Group-Skeleton-Based Human Action Recognition in Complex Events [15.649778891665468]
本稿では,複合イベントにおけるグループ骨格に基づく人間行動認識手法を提案する。
本手法はまず,マルチスケール空間時間グラフ畳み込みネットワーク(MS-G3D)を用いて,複数の人物から骨格の特徴を抽出する。
HiEveデータセットの結果から,本手法は他の最先端手法と比較して優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-11-26T13:19:14Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。