論文の概要: Skeleton Focused Human Activity Recognition in RGB Video
- arxiv url: http://arxiv.org/abs/2004.13979v1
- Date: Wed, 29 Apr 2020 06:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:26:43.430116
- Title: Skeleton Focused Human Activity Recognition in RGB Video
- Title(参考訳): rgbビデオにおけるスケルトン焦点ヒト活動認識
- Authors: Bruce X. B. Yu, Yan Liu, Keith C. C. Chan
- Abstract要約: 骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
- 参考スコア(独自算出の注目度): 11.521107108725188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The data-driven approach that learns an optimal representation of vision
features like skeleton frames or RGB videos is currently a dominant paradigm
for activity recognition. While great improvements have been achieved from
existing single modal approaches with increasingly larger datasets, the fusion
of various data modalities at the feature level has seldom been attempted. In
this paper, we propose a multimodal feature fusion model that utilizes both
skeleton and RGB modalities to infer human activity. The objective is to
improve the activity recognition accuracy by effectively utilizing the mutual
complemental information among different data modalities. For the skeleton
modality, we propose to use a graph convolutional subnetwork to learn the
skeleton representation. Whereas for the RGB modality, we will use the
spatial-temporal region of interest from RGB videos and take the attention
features from the skeleton modality to guide the learning process. The model
could be either individually or uniformly trained by the back-propagation
algorithm in an end-to-end manner. The experimental results for the NTU-RGB+D
and Northwestern-UCLA Multiview datasets achieved state-of-the-art performance,
which indicates that the proposed skeleton-driven attention mechanism for the
RGB modality increases the mutual communication between different data
modalities and brings more discriminative features for inferring human
activities.
- Abstract(参考訳): スケルトンフレームやrgbビデオといった視覚機能の最適な表現を学ぶデータ駆動アプローチは、現在アクティビティ認識の主要なパラダイムである。
より大きなデータセットを持つ既存の単一モーダルアプローチから大きな改善が得られたが、機能レベルでの様々なデータモーダルの融合はめったに試みられていない。
本稿では,骨格とRGBモダリティを併用したマルチモーダル特徴融合モデルを提案する。
目的は、異なるデータモダリティ間の相互補完情報を有効活用することにより、アクティビティ認識精度を向上させることである。
骨格のモダリティについて,スケルトン表現の学習にグラフ畳み込みサブネットワークを用いることを提案する。
RGBのモダリティとは対照的に、RGBビデオの空間的時間的関心領域を用いて、骨格のモダリティから注目特徴を取り入れて学習プロセスを導く。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
ntu-rgb+dとnorthern-ucla multiviewデータセットの実験結果から,提案するrgbモダリティのスケルトン駆動型注意機構は,異なるデータモダリティ間の相互通信を増加させ,ヒューマンアクティビティを推定するためのより識別的特徴をもたらすことが示唆された。
関連論文リスト
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case [8.26451988845854]
本研究では,人間の行動認識(HAR)に骨格と視覚的手がかりをベースとした新しいアプローチを提案する。
特徴表現を最適化するために,スケルトンモダリティを条件とした言語モデルに対して学習可能なプロンプトを用いる。
建設現場における実世界のロボット応用に適した新しいデータセットを導入し,視覚,骨格,深度データモダリティを特徴とする。
論文 参考訳(メタデータ) (2024-10-02T19:10:23Z) - Adversarial Robustness in RGB-Skeleton Action Recognition: Leveraging Attention Modality Reweighter [32.64004722423187]
RGB-スケルトン行動認識モデルのロバスト性を改善する方法について述べる。
本稿では,formatwordAMR(formatwordAttention-based formatwordModality formatwordReweighter)を提案する。
私たちのAMRはプラグアンドプレイで、マルチモーダルモデルと簡単に統合できます。
論文 参考訳(メタデータ) (2024-07-29T13:15:51Z) - Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph [4.075741925017479]
グループアクティビティ認識は、ビデオから集合的なアクティビティを理解することを目的としている。
既存のソリューションはRGBのモダリティに依存しており、背景の変化のような課題に直面している。
パノラマグラフを設計し、複数の人物の骨格や物体を包含してグループ活動をカプセル化する。
論文 参考訳(メタデータ) (2024-07-28T13:57:03Z) - Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。
MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文 参考訳(メタデータ) (2024-07-22T15:16:47Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion
Recognition [24.02488085447691]
そこで本稿では,MixUp の補足として機能する ShuffleMix という新しいビデオデータ拡張手法を提案する。
第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-16T19:00:23Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。
私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。
JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文 参考訳(メタデータ) (2020-10-16T04:43:34Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。