Fugu-MT 論文翻訳(概要): Skeleton Focused Human Activity Recognition in RGB Video

論文の概要: Skeleton Focused Human Activity Recognition in RGB Video

arxiv url: http://arxiv.org/abs/2004.13979v1
Date: Wed, 29 Apr 2020 06:40:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 13:26:43.430116
Title: Skeleton Focused Human Activity Recognition in RGB Video
Title（参考訳）: rgbビデオにおけるスケルトン焦点ヒト活動認識
Authors: Bruce X. B. Yu, Yan Liu, Keith C. C. Chan
Abstract要約: 骨格とRGBの両モードを併用したマルチモーダル特徴融合モデルを提案する。モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。
参考スコア（独自算出の注目度）: 11.521107108725188
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The data-driven approach that learns an optimal representation of vision features like skeleton frames or RGB videos is currently a dominant paradigm for activity recognition. While great improvements have been achieved from existing single modal approaches with increasingly larger datasets, the fusion of various data modalities at the feature level has seldom been attempted. In this paper, we propose a multimodal feature fusion model that utilizes both skeleton and RGB modalities to infer human activity. The objective is to improve the activity recognition accuracy by effectively utilizing the mutual complemental information among different data modalities. For the skeleton modality, we propose to use a graph convolutional subnetwork to learn the skeleton representation. Whereas for the RGB modality, we will use the spatial-temporal region of interest from RGB videos and take the attention features from the skeleton modality to guide the learning process. The model could be either individually or uniformly trained by the back-propagation algorithm in an end-to-end manner. The experimental results for the NTU-RGB+D and Northwestern-UCLA Multiview datasets achieved state-of-the-art performance, which indicates that the proposed skeleton-driven attention mechanism for the RGB modality increases the mutual communication between different data modalities and brings more discriminative features for inferring human activities.
Abstract（参考訳）: スケルトンフレームやrgbビデオといった視覚機能の最適な表現を学ぶデータ駆動アプローチは、現在アクティビティ認識の主要なパラダイムである。より大きなデータセットを持つ既存の単一モーダルアプローチから大きな改善が得られたが、機能レベルでの様々なデータモーダルの融合はめったに試みられていない。本稿では,骨格とRGBモダリティを併用したマルチモーダル特徴融合モデルを提案する。目的は、異なるデータモダリティ間の相互補完情報を有効活用することにより、アクティビティ認識精度を向上させることである。骨格のモダリティについて,スケルトン表現の学習にグラフ畳み込みサブネットワークを用いることを提案する。 RGBのモダリティとは対照的に、RGBビデオの空間的時間的関心領域を用いて、骨格のモダリティから注目特徴を取り入れて学習プロセスを導く。モデルは、エンドツーエンドの方法で、バックプロパゲーションアルゴリズムによって個別または均一にトレーニングすることができる。 ntu-rgb+dとnorthern-ucla multiviewデータセットの実験結果から,提案するrgbモダリティのスケルトン駆動型注意機構は,異なるデータモダリティ間の相互通信を増加させ,ヒューマンアクティビティを推定するためのより識別的特徴をもたらすことが示唆された。

関連論文リスト

Body-Hand Modality Expertized Networks with Cross-attention for Fine-grained Skeleton Action Recognition [28.174638880324014]
BHaRNetは、典型的なボディエキスパートモデルをハンドエキスパートモデルで拡張する新しいフレームワークである。我々のモデルは、協調的な専門化を促進するアンサンブル損失で、両方のストリームを共同で訓練する。 MMNetに触発されて、RGB情報を活用することで、マルチモーダルタスクへのアプローチの適用性を実証する。
論文参考訳（メタデータ） (2025-03-19T07:54:52Z)
VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文参考訳（メタデータ） (2024-12-28T07:38:23Z)
Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case [8.26451988845854]
本研究では,人間の行動認識(HAR)に骨格と視覚的手がかりをベースとした新しいアプローチを提案する。特徴表現を最適化するために,スケルトンモダリティを条件とした言語モデルに対して学習可能なプロンプトを用いる。建設現場における実世界のロボット応用に適した新しいデータセットを導入し,視覚,骨格,深度データモダリティを特徴とする。
論文参考訳（メタデータ） (2024-10-02T19:10:23Z)
Adversarial Robustness in RGB-Skeleton Action Recognition: Leveraging Attention Modality Reweighter [32.64004722423187]
RGB-スケルトン行動認識モデルのロバスト性を改善する方法について述べる。本稿では,formatwordAMR(formatwordAttention-based formatwordModality formatwordReweighter)を提案する。私たちのAMRはプラグアンドプレイで、マルチモーダルモデルと簡単に統合できます。
論文参考訳（メタデータ） (2024-07-29T13:15:51Z)
Skeleton-based Group Activity Recognition via Spatial-Temporal Panoramic Graph [4.075741925017479]
グループアクティビティ認識は、ビデオから集合的なアクティビティを理解することを目的としている。既存のソリューションはRGBのモダリティに依存しており、背景の変化のような課題に直面している。パノラマグラフを設計し、複数の人物の骨格や物体を包含してグループ活動をカプセル化する。
論文参考訳（メタデータ） (2024-07-28T13:57:03Z)
Multi-Modality Co-Learning for Efficient Skeleton-based Action Recognition [12.382193259575805]
本稿では,効率的な骨格に基づく行動認識のための多モード協調学習(MMCL)フレームワークを提案する。 MMCLフレームワークは,トレーニング期間中に多要素協調学習を行い,推論に簡潔な骨格のみを用いることで効率を向上する。
論文参考訳（メタデータ） (2024-07-22T15:16:47Z)
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文参考訳（メタデータ） (2023-09-25T08:56:22Z)
A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion Recognition [24.02488085447691]
そこで本稿では,MixUp の補足として機能する ShuffleMix という新しいビデオデータ拡張手法を提案する。第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-16T19:00:23Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。 2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。 3つの大規模データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2021-08-10T09:25:07Z)
Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。 JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文参考訳（メタデータ） (2020-10-16T04:43:34Z)
Modality Compensation Network: Cross-Modal Adaptation for Action Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-01-31T04:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。