論文の概要: Skeleton Focused Human Activity Recognition in RGB Video
- arxiv url: http://arxiv.org/abs/2004.13979v1
- Date: Wed, 29 Apr 2020 06:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:26:43.430116
- Title: Skeleton Focused Human Activity Recognition in RGB Video
- Title(参考訳): rgbビデオにおけるスケルトン焦点ヒト活動認識
- Authors: Bruce X. B. Yu, Yan Liu, Keith C. C. Chan
- Abstract要約: 骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
- 参考スコア(独自算出の注目度): 11.521107108725188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The data-driven approach that learns an optimal representation of vision
features like skeleton frames or RGB videos is currently a dominant paradigm
for activity recognition. While great improvements have been achieved from
existing single modal approaches with increasingly larger datasets, the fusion
of various data modalities at the feature level has seldom been attempted. In
this paper, we propose a multimodal feature fusion model that utilizes both
skeleton and RGB modalities to infer human activity. The objective is to
improve the activity recognition accuracy by effectively utilizing the mutual
complemental information among different data modalities. For the skeleton
modality, we propose to use a graph convolutional subnetwork to learn the
skeleton representation. Whereas for the RGB modality, we will use the
spatial-temporal region of interest from RGB videos and take the attention
features from the skeleton modality to guide the learning process. The model
could be either individually or uniformly trained by the back-propagation
algorithm in an end-to-end manner. The experimental results for the NTU-RGB+D
and Northwestern-UCLA Multiview datasets achieved state-of-the-art performance,
which indicates that the proposed skeleton-driven attention mechanism for the
RGB modality increases the mutual communication between different data
modalities and brings more discriminative features for inferring human
activities.
- Abstract(参考訳): スケルトンフレームやrgbビデオといった視覚機能の最適な表現を学ぶデータ駆動アプローチは、現在アクティビティ認識の主要なパラダイムである。
より大きなデータセットを持つ既存の単一モーダルアプローチから大きな改善が得られたが、機能レベルでの様々なデータモーダルの融合はめったに試みられていない。
本稿では,骨格とRGBモダリティを併用したマルチモーダル特徴融合モデルを提案する。
目的は、異なるデータモダリティ間の相互補完情報を有効活用することにより、アクティビティ認識精度を向上させることである。
骨格のモダリティについて,スケルトン表現の学習にグラフ畳み込みサブネットワークを用いることを提案する。
RGBのモダリティとは対照的に、RGBビデオの空間的時間的関心領域を用いて、骨格のモダリティから注目特徴を取り入れて学習プロセスを導く。
モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
ntu-rgb+dとnorthern-ucla multiviewデータセットの実験結果から,提案するrgbモダリティのスケルトン駆動型注意機構は,異なるデータモダリティ間の相互通信を増加させ,ヒューマンアクティビティを推定するためのより識別的特徴をもたらすことが示唆された。
関連論文リスト
- Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - RGB-T Tracking Based on Mixed Attention [5.151994214135177]
RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。
本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。
論文 参考訳(メタデータ) (2023-04-09T15:59:41Z) - A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion
Recognition [24.02488085447691]
そこで本稿では,MixUp の補足として機能する ShuffleMix という新しいビデオデータ拡張手法を提案する。
第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-16T19:00:23Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Spatio-Temporal Human Action Recognition Modelwith Flexible-interval
Sampling and Normalization [0.0]
設計モジュールを用いた赤緑色(RGB)ビデオ入力のためのヒューマンアクションシステムを提案する。
我々は、人間のキーポイント予測と行動認識の両方に対して、類似した背景と差別的な行動を持つ新しいデータセットを構築した。
実験により,提案モデルの有効性を,我々の行動認識データセットといくつかの公開データセットで実証した。
論文 参考訳(メタデータ) (2021-08-12T10:02:20Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - UNIK: A Unified Framework for Real-world Skeleton-based Action
Recognition [11.81043814295441]
UNIKは、データセットをまたいで一般化できる新しい骨格に基づく行動認識手法である。
実世界のビデオにおける行動認識のクロスドメイン一般化可能性について検討するため,提案したUNIKと同様に最先端のアプローチを再評価する。
その結果,提案したUNIKは,Poseticsを事前学習した上で,4つのターゲットアクション分類データセットに転送した場合に,最先端の処理性能を向上することがわかった。
論文 参考訳(メタデータ) (2021-07-19T02:00:28Z) - Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。
私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。
JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文 参考訳(メタデータ) (2020-10-16T04:43:34Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。