論文の概要: Robust Event Detection based on Spatio-Temporal Latent Action Unit using
Skeletal Information
- arxiv url: http://arxiv.org/abs/2109.02376v1
- Date: Mon, 6 Sep 2021 11:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:22:37.140854
- Title: Robust Event Detection based on Spatio-Temporal Latent Action Unit using
Skeletal Information
- Title(参考訳): 骨格情報を用いた時空間潜在行動単位に基づくロバスト事象検出
- Authors: Hao Xing, Yuxuan Xue, Mingchuan Zhou and Darius Burschka
- Abstract要約: 本稿では,RGBDビデオから抽出した骨格情報を用いて,新たな辞書学習手法を提案する。
提案手法をNTURGB+Dデータセットの一部で評価し,209件の落下動画,405件のグラウンドリフトビデオ,420件のシットダウンビデオ,46件の異動動画の280件について検討した。
- 参考スコア(独自算出の注目度): 5.318289553424049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper propose a novel dictionary learning approach to detect event
action using skeletal information extracted from RGBD video. The event action
is represented as several latent atoms and composed of latent spatial and
temporal attributes. We perform the method at the example of fall event
detection. The skeleton frames are clustered by an initial K-means method. Each
skeleton frame is assigned with a varying weight parameter and fed into our
Gradual Online Dictionary Learning (GODL) algorithm. During the training
process, outlier frames will be gradually filtered by reducing the weight that
is inversely proportional to a cost. In order to strictly distinguish the event
action from similar actions and robustly acquire its action unit, we build a
latent unit temporal structure for each sub-action. We evaluate the proposed
method on parts of the NTURGB+D dataset, which includes 209 fall videos, 405
ground-lift videos, 420 sit-down videos, and 280 videos of 46 otheractions. We
present the experimental validation of the achieved accuracy, recall and
precision. Our approach achieves the bestperformance on precision and accuracy
of human fall event detection, compared with other existing dictionary learning
methods. With increasing noise ratio, our method remains the highest accuracy
and the lowest variance.
- Abstract(参考訳): 本稿では,rgbdビデオから抽出した骨格情報を用いてイベント行動を検出する新しい辞書学習手法を提案する。
イベントアクションはいくつかの潜時原子として表され、潜時空間特性と時間特性から構成される。
本手法は,秋の事象検出の例で実施する。
骨格フレームは初期K平均法によりクラスタリングされる。
各骨格フレームには様々な重みパラメータが割り当てられており、我々のGradual Online Dictionary Learning (GODL)アルゴリズムに入力される。
トレーニングプロセスでは、コストに逆比例する重量を減らすことで、アウトリアーフレームは徐々にフィルタリングされる。
イベントアクションを類似のアクションと厳密に区別し、そのアクションユニットを堅牢に取得するために、各サブアクションに対して潜在単位時間構造を構築します。
提案手法をNTURGB+Dデータセットの一部で評価し,209件の落下動画,405件のグラウンドリフトビデオ,420件のシットダウンビデオ,46件の異動の280件の動画を含む。
得られた精度,リコール,精度を実験的に検証した。
提案手法は,従来の辞書学習法と比較して,人間の転倒事象検出の精度と精度を向上する。
ノイズ比の増加に伴い,本手法は高い精度と低分散性を維持している。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Cutup and Detect: Human Fall Detection on Cutup Untrimmed Videos Using a
Large Foundational Video Understanding Model [0.0]
本研究では,ヒトの転倒検出作業における映像理解基盤モデルの性能について検討する。
トリミングされていないビデオの簡単なカットアップに依存する時間的行動の局所化法を実証する。
結果はリアルタイムアプリケーションに期待でき、HQFSDデータセットで最先端の0.96 F1スコアで、ビデオレベルでフォールを検出する。
論文 参考訳(メタデータ) (2024-01-29T16:37:00Z) - SOAR: Scene-debiasing Open-set Action Recognition [81.8198917049666]
本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
論文 参考訳(メタデータ) (2023-09-03T20:20:48Z) - PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action
Recognition [52.78234467516168]
本稿では、隣接フレーム間の動きバイアスを定量化するために、パッチ相互情報(PMI)スコアの概念を導入する。
シフトリークReLuと累積分布関数を用いた適応フレーム選択方式を提案する。
本手法は,UAV-Humanの2.2~13.8%,NEC Droneの6.8%,Diving48データセットの9.0%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-04-14T00:01:11Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z) - Fast Template Matching and Update for Video Object Tracking and
Segmentation [56.465510428878]
私たちが取り組もうとしている主な課題は、フレームの列にまたがるマルチインスタンスの半教師付きビデオオブジェクトセグメンテーションである。
課題は、結果を予測するためのマッチングメソッドの選択と、ターゲットテンプレートを更新するかどうかを決定することである。
本稿では,これら2つの決定を同時に行うために,強化学習を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T08:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。