論文の概要: Towards To-a-T Spatio-Temporal Focus for Skeleton-Based Action
Recognition
- arxiv url: http://arxiv.org/abs/2202.02314v1
- Date: Fri, 4 Feb 2022 18:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 15:02:32.536458
- Title: Towards To-a-T Spatio-Temporal Focus for Skeleton-Based Action
Recognition
- Title(参考訳): 骨格に基づく行動認識のためのTo-a-T時空間焦点に向けて
- Authors: Lipeng Ke, Kuan-Chuan Peng, Siwei Lyu
- Abstract要約: To-a-T S-temporal-Temporal Focus (STF) は骨格に基づく行動認識フレームワークである。
まず、学習可能な勾配強化およびインスタンス依存のSTFモジュールを提案し、高時空ダイナミクスをモデル化する。
- 参考スコア(独自算出の注目度): 40.55650083185924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph Convolutional Networks (GCNs) have been widely used to model the
high-order dynamic dependencies for skeleton-based action recognition. Most
existing approaches do not explicitly embed the high-order spatio-temporal
importance to joints' spatial connection topology and intensity, and they do
not have direct objectives on their attention module to jointly learn when and
where to focus on in the action sequence. To address these problems, we propose
the To-a-T Spatio-Temporal Focus (STF), a skeleton-based action recognition
framework that utilizes the spatio-temporal gradient to focus on relevant
spatio-temporal features. We first propose the STF modules with learnable
gradient-enforced and instance-dependent adjacency matrices to model the
high-order spatio-temporal dynamics. Second, we propose three loss terms
defined on the gradient-based spatio-temporal focus to explicitly guide the
classifier when and where to look at, distinguish confusing classes, and
optimize the stacked STF modules. STF outperforms the state-of-the-art methods
on the NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400 datasets in all
15 settings over different views, subjects, setups, and input modalities, and
STF also shows better accuracy on scarce data and dataset shifting settings.
- Abstract(参考訳): グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識のための高次動的依存をモデル化するために広く利用されている。
既存のほとんどのアプローチは、関節の空間的接続トポロジーと強度に高次の時空間的重要性を明示的に埋め込むものではなく、アクションシーケンスでいつどこでフォーカスするかを共同で学ぶための注意モジュールに直接的な目的を持たない。
これらの問題に対処するため,スケルトンをベースとした時空間勾配を利用した時空間的行動認識フレームワークTo-a-T Spatio-Temporal Focus (STF)を提案する。
まず,高次時空間ダイナミクスをモデル化するために,学習可能な勾配強化およびインスタンス依存隣接行列を持つstfモジュールを提案する。
第2に、勾配に基づく時空間的焦点に基づいて定義された3つの損失項を提案し、クラスを区別し、スタック化されたSTFモジュールを最適化する。
STFは、NTU RGB+D 60、NTU RGB+D 120、およびKineetics Skeleton 400データセットにおいて、さまざまなビュー、主題、設定、入力モダリティに関する15の設定において、最先端の手法よりも優れており、STFは、不足したデータやデータセットシフト設定の精度も向上している。
関連論文リスト
- Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - Hierarchical Spatio-Temporal Representation Learning for Gait
Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。
粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。
本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-19T09:30:00Z) - Spatial Temporal Graph Attention Network for Skeleton-Based Action
Recognition [10.60209288486904]
骨格に基づく行動認識の現在の手法では、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。
本稿では,時空情報の流れをモデル化する汎用フレームワークSTGATを提案する。
STGATは3つの大規模データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T02:34:46Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。