論文の概要: Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks
- arxiv url: http://arxiv.org/abs/2301.11495v1
- Date: Fri, 27 Jan 2023 02:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 16:40:01.245752
- Title: Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks
- Title(参考訳): 2ストリーム空間-時間ネットワークの対比によるスケルトンに基づく行動認識
- Authors: Chen Pang, Xuequan Lu, Lei Lyu
- Abstract要約: 本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 11.66009967197084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For pursuing accurate skeleton-based action recognition, most prior methods
use the strategy of combining Graph Convolution Networks (GCNs) with
attention-based methods in a serial way. However, they regard the human
skeleton as a complete graph, resulting in less variations between different
actions (e.g., the connection between the elbow and head in action ``clapping
hands''). For this, we propose a novel Contrastive GCN-Transformer Network
(ConGT) which fuses the spatial and temporal modules in a parallel way. The
ConGT involves two parallel streams: Spatial-Temporal Graph Convolution stream
(STG) and Spatial-Temporal Transformer stream (STT). The STG is designed to
obtain action representations maintaining the natural topology structure of the
human skeleton. The STT is devised to acquire action representations containing
the global relationships among joints. Since the action representations
produced from these two streams contain different characteristics, and each of
them knows little information of the other, we introduce the contrastive
learning paradigm to guide their output representations of the same sample to
be as close as possible in a self-supervised manner. Through the contrastive
learning, they can learn information from each other to enrich the action
features by maximizing the mutual information between the two types of action
representations. To further improve action recognition accuracy, we introduce
the Cyclical Focal Loss (CFL) which can focus on confident training samples in
early training epochs, with an increasing focus on hard samples during the
middle epochs. We conduct experiments on three benchmark datasets, which
demonstrate that our model achieves state-of-the-art performance in action
recognition.
- Abstract(参考訳): 正確なスケルトンに基づく行動認識を追求するために、ほとんどの先行手法はグラフ畳み込みネットワーク(gcns)と注意に基づく手法を連続的に組み合わせる戦略を用いる。
しかし、彼らは人間の骨格を完全なグラフとみなし、結果として異なる行動(例えば、肘と頭部の'clap hands''')の間の差異が少なくなった。
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network (ConGT)を提案する。
ConGTはSpatial-Temporal Graph Convolution Stream (STG)とSpatial-Temporal Transformer Stream (STT)の2つの並列ストリームを含む。
STGはヒト骨格の自然なトポロジー構造を維持するために設計された。
STTは、関節間のグローバルな関係を含む行動表現を取得するために考案された。
これら2つのストリームから生成されたアクション表現は,それぞれ異なる特徴を持ち,それぞれが互いにほとんど情報を知らないため,自己監督的な方法で同一サンプルの出力表現を可能な限り近いものにガイドするコントラスト学習パラダイムを導入する。
コントラスト学習により,2種類の行動表現間の相互情報を最大化することにより,互いに情報を学習し,行動特徴を豊かにすることができる。
行動認識の精度をさらに向上するため,早期訓練期における自信あるトレーニングサンプルに焦点をあてるCFL(Cyical Focal Loss)を導入し,中期期におけるハードサンプルに焦点をあてる。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
関連論文リスト
- S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Two-person Graph Convolutional Network for Skeleton-based Human
Interaction Recognition [11.650290790796323]
グラフ畳み込みネットワーク(GCN)は、骨格に基づく人間の行動認識領域において従来の手法より優れていた。
本稿では,関節間の空間的相互作用の相関を表す新しい2人グラフを提案する。
実験は、提案した2人グラフトポロジを利用する場合、相互作用と個々の動作の両方において精度の向上を示す。
論文 参考訳(メタデータ) (2022-08-12T08:50:15Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Combining the Silhouette and Skeleton Data for Gait Recognition [13.345465199699]
2つの主要な歩行認識作品は外観ベースとモデルベースであり、シルエットと骨格からそれぞれ特徴を抽出する。
本稿では, シルエットを入力とするCNN系分岐と, 骨格を入力とするGCN系分岐を提案する。
GCNベースの分岐における歩行表現を改善するため、マルチスケールグラフ畳み込みを統合する完全連結グラフ畳み込み演算子を提案する。
論文 参考訳(メタデータ) (2022-02-22T03:21:51Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Sequential convolutional network for behavioral pattern extraction in
gait recognition [0.7874708385247353]
個人の歩行パターンを学習するための逐次畳み込みネットワーク(SCN)を提案する。
SCNでは、時系列の中間特徴写像を理解するために行動情報抽出器(BIE)を構築している。
SCNのマルチフレームアグリゲータは、モバイル3D畳み込み層を介して、長さが不確定なシーケンス上の機能統合を実行する。
論文 参考訳(メタデータ) (2021-04-23T08:44:10Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。