論文の概要: PoseWatch: A Transformer-based Architecture for Human-centric Video Anomaly Detection Using Spatio-temporal Pose Tokenization
- arxiv url: http://arxiv.org/abs/2408.15185v1
- Date: Tue, 27 Aug 2024 16:40:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 13:03:51.384412
- Title: PoseWatch: A Transformer-based Architecture for Human-centric Video Anomaly Detection Using Spatio-temporal Pose Tokenization
- Title(参考訳): PoseWatch: 時空間ポストークン化を用いた人中心ビデオ異常検出のためのトランスフォーマーベースアーキテクチャ
- Authors: Ghazal Alinezhad Noghre, Armin Danesh Pazho, Hamed Tabkhi,
- Abstract要約: ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要な課題である。
人間中心のVADは、人間の振る舞いのバリエーション、データの潜在的なバイアス、および人間の被写体に関連する実質的なプライバシー上の懸念など、さらなる複雑さに直面している。
近年の進歩は、プライバシの懸念を緩和し、外観バイアスを低減し、背景干渉を最小限に抑えるために、人間のポーズを高レベルな特徴として活用するポーズベースのVADに焦点を当てている。
本稿では,人間中心のポーズに基づくVADに特化して設計された,新しいトランスフォーマーベースのアーキテクチャであるPoseWatchを紹介する。
- 参考スコア(独自算出の注目度): 2.3349787245442966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Anomaly Detection (VAD) presents a significant challenge in computer vision, particularly due to the unpredictable and infrequent nature of anomalous events, coupled with the diverse and dynamic environments in which they occur. Human-centric VAD, a specialized area within this domain, faces additional complexities, including variations in human behavior, potential biases in data, and substantial privacy concerns related to human subjects. These issues complicate the development of models that are both robust and generalizable. To address these challenges, recent advancements have focused on pose-based VAD, which leverages human pose as a high-level feature to mitigate privacy concerns, reduce appearance biases, and minimize background interference. In this paper, we introduce PoseWatch, a novel transformer-based architecture designed specifically for human-centric pose-based VAD. PoseWatch features an innovative Spatio-Temporal Pose and Relative Pose (ST-PRP) tokenization method that enhances the representation of human motion over time, which is also beneficial for broader human behavior analysis tasks. The architecture's core, a Unified Encoder Twin Decoders (UETD) transformer, significantly improves the detection of anomalous behaviors in video data. Extensive evaluations across multiple benchmark datasets demonstrate that PoseWatch consistently outperforms existing methods, establishing a new state-of-the-art in pose-based VAD. This work not only demonstrates the efficacy of PoseWatch but also highlights the potential of integrating Natural Language Processing techniques with computer vision to advance human behavior analysis.
- Abstract(参考訳): ビデオ異常検出(VAD)は、特に異常事象の予測不能で頻度の低い性質と、それらが起こる多様な動的環境が相まって、コンピュータビジョンにおいて重要な課題となる。
この領域の専門分野である人間中心のVADは、人間の振る舞いのバリエーション、データの潜在的なバイアス、および人間の被写体に関連する重大なプライバシー上の懸念など、さらなる複雑さに直面している。
これらの問題は、堅牢かつ一般化可能なモデルの開発を複雑にしている。
これらの課題に対処するため、最近の進歩は、プライバシの懸念を緩和し、外観バイアスを低減し、バックグラウンド干渉を最小限に抑えるために、人間のポーズを高レベルな機能として活用する、ポーズベースのVADに焦点を当てている。
本稿では,人間中心のポーズに基づくVADに特化して設計された,新しいトランスフォーマーベースのアーキテクチャであるPoseWatchを紹介する。
PoseWatchは、時間とともに人間の動きを表現しやすくし、より広範な人間の行動分析タスクにも有用である、革新的な時空間ポースと相対ポース(ST-PRP)トークン化手法を備えている。
アーキテクチャのコアである統一エンコーダツインデコーダ(UETD)は、ビデオデータの異常な振る舞いの検出を大幅に改善する。
複数のベンチマークデータセットにわたる広範囲な評価は、PoseWatchが既存のメソッドを一貫して上回り、ポーズベースのVADにおける新しい最先端性を確立していることを示している。
この研究は、PoseWatchの有効性を実証するだけでなく、人間の行動分析を進めるために自然言語処理技術とコンピュータビジョンを統合する可能性も強調している。
関連論文リスト
- EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - A Reliable Framework for Human-in-the-Loop Anomaly Detection in Time Series [17.08674819906415]
HILADは、人間とAIの動的かつ双方向なコラボレーションを促進するために設計された、新しいフレームワークである。
ビジュアルインターフェースを通じて、HILADはドメインの専門家に、大規模な予期せぬモデルの振る舞いを検出し、解釈し、修正する権限を与えます。
論文 参考訳(メタデータ) (2024-05-06T07:44:07Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Within the Dynamic Context: Inertia-aware 3D Human Modeling with Pose Sequence [47.16903508897047]
本研究では、現在のフレームのポーズ状態だけでなく、過去のポーズ状態にも人間の外観の変化が依存していることを明らかにする。
非剛性変形に対するデルタポーズシーケンス表現を利用した新しい手法であるDycoを導入する。
さらに, 慣性を考慮した3次元人間の手法は, 異なる速度での慣性による外観変化を前例なくシミュレートすることができる。
論文 参考訳(メタデータ) (2024-03-28T06:05:14Z) - Towards Precise 3D Human Pose Estimation with Multi-Perspective Spatial-Temporal Relational Transformers [28.38686299271394]
人間のポーズ検出のための3次元シーケンス・ツー・シーケンス(seq2seq)フレームワークを提案する。
まず、空間モジュールは人物のポーズ特徴を画像内コンテンツで表現し、フレーム・イメージ関係モジュールは時間的関係を抽出する。
提案手法は,一般的な3次元ポーズ検出データセットであるHuman3.6Mを用いて評価する。
論文 参考訳(メタデータ) (2024-01-30T03:00:25Z) - PoseExaminer: Automated Testing of Out-of-Distribution Robustness in
Human Pose and Shape Estimation [15.432266117706018]
我々は人間のポーズのイメージの多様体を探索するために、きめ細かい方法で制御できるシミュレータを開発した。
本稿では,HPSアルゴリズムを自動診断するPoseExaminerという学習ベースのテスト手法を提案する。
我々のPoseExaminerは、現実のシナリオに関係のある現在の最先端モデルにおいて、様々な制限を発見できることを示す。
論文 参考訳(メタデータ) (2023-03-13T17:58:54Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。