論文の概要: A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation
- arxiv url: http://arxiv.org/abs/2312.05830v1
- Date: Sun, 10 Dec 2023 09:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 18:26:30.575991
- Title: A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation
- Title(参考訳): スケルトンに基づくアクションセグメンテーションのための分離時空間枠組み
- Authors: Yunheng Li, Zhongyu Li, Shanghua Gao, Qilong Wang, Qibin Hou,
Ming-Ming Cheng
- Abstract要約: 既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 89.86345494602642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively modeling discriminative spatio-temporal information is essential
for segmenting activities in long action sequences. However, we observe that
existing methods are limited in weak spatio-temporal modeling capability due to
two forms of decoupled modeling: (i) cascaded interaction couples spatial and
temporal modeling, which over-smooths motion modeling over the long sequence,
and (ii) joint-shared temporal modeling adopts shared weights to model each
joint, ignoring the distinct motion patterns of different joints. We propose a
Decoupled Spatio-Temporal Framework (DeST) to address the above issues.
Firstly, we decouple the cascaded spatio-temporal interaction to avoid stacking
multiple spatio-temporal blocks, while achieving sufficient spatio-temporal
interaction. Specifically, DeST performs once unified spatial modeling and
divides the spatial features into different groups of subfeatures, which then
adaptively interact with temporal features from different layers. Since the
different sub-features contain distinct spatial semantics, the model could
learn the optimal interaction pattern at each layer. Meanwhile, inspired by the
fact that different joints move at different speeds, we propose joint-decoupled
temporal modeling, which employs independent trainable weights to capture
distinctive temporal features of each joint. On four large-scale benchmarks of
different scenes, DeST significantly outperforms current state-of-the-art
methods with less computational complexity.
- Abstract(参考訳): 識別時空間情報を効果的にモデル化することは、長い行動系列のセグメンテーション活動に不可欠である。
しかし, 既存の手法では, 2種類のデカップリングモデリングにより, 弱時空間モデリング能力に制限がある。
(i)カスケード相互作用は空間的・時間的モデリングを結合し、長列上での運動のモデリングを行う。
(ii)ジョイント共有時空間モデリングは、異なるジョイントの動きパターンを無視して、各ジョイントをモデリングするために共有ウェイトを採用する。
本稿では,これらの問題に対処するための分散時空間フレームワーク(DeST)を提案する。
まず,複数の時空間ブロックの積み重ねを回避し,十分な時空間相互作用を実現する。
具体的には、DeSTは一度統一された空間モデルを実行し、空間的特徴を異なるサブフィーチャーのグループに分割し、異なるレイヤから時間的特徴と適応的に相互作用する。
異なるサブフィーチャは異なる空間意味を含むため、モデルは各層で最適な相互作用パターンを学ぶことができる。
一方,異なる関節が異なる速度で動くという事実に触発されて,個別に訓練可能な重みを用いて各関節の時間的特徴を捉えるジョイント分離時空間モデリングを提案する。
異なるシーンの4つの大規模なベンチマークでは、DeSTは計算の複雑さを減らして現在の最先端の手法を著しく上回っている。
関連論文リスト
- Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition [0.0]
本稿では,マルチスケール空間時間自己注意(MSST)-GCNという自己注意型GCNハイブリッドモデルを提案する。
適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。
論文 参考訳(メタデータ) (2024-04-03T10:25:45Z) - Video-Based Human Pose Regression via Decoupled Space-Time Aggregation [0.5524804393257919]
そこで我々は,Asmapなどの中間表現をバイパスし,その代わりに入力を直接共同座標にマッピングする,効率的で効果的なビデオベースヒューマンポーズ回帰手法を開発した。
本手法は, 隣り合う関節の空間的依存性と各関節の時間的依存性を効率よく, 柔軟に利用することができる。
我々のアプローチは、最先端のヒートマップベースのマルチフレームヒューマンポーズ推定手法に匹敵するか、同等である。
論文 参考訳(メタデータ) (2024-03-29T02:26:22Z) - Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Spatio-temporal Diffusion Point Processes [23.74522530140201]
パティオ・テンポラル・ポイント・プロセス(英: patio-temporal point process、STPP)は、時間と空間を伴うイベントの集合である。
結合分布のモデル化に失敗すると、与えられた事象の過去の時間的相互作用を特徴づける能力は限られる。
複雑な時空間の関節分布を学習する新しいパラメータ化フレームワークを提案する。
我々のフレームワークは最先端のベースラインを著しく上回り、平均50%以上の改善がなされています。
論文 参考訳(メタデータ) (2023-05-21T08:53:00Z) - Spatial Temporal Graph Attention Network for Skeleton-Based Action
Recognition [10.60209288486904]
骨格に基づく行動認識の現在の手法では、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。
本稿では,時空情報の流れをモデル化する汎用フレームワークSTGATを提案する。
STGATは3つの大規模データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T02:34:46Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Spatio-Temporal Joint Graph Convolutional Networks for Traffic
Forecasting [75.10017445699532]
近年、時間グラフモデリング問題として交通予測の定式化に焦点が移っている。
本稿では,道路網における交通予測の精度向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-25T08:45:14Z) - TSI: Temporal Saliency Integration for Video Action Recognition [32.18535820790586]
本稿では,SME(Salient Motion Excitation)モジュールとCTI(Cross-scale Temporal Integration)モジュールを主成分とするTSI(Temporal Saliency Integration)ブロックを提案する。
SMEは、局所的な動きモデリングを通して、動きに敏感な領域を強調することを目的としている。
CTIは、それぞれ別々の1D畳み込みの群を通じて、マルチスケールの時間的モデリングを実行するように設計されている。
論文 参考訳(メタデータ) (2021-06-02T11:43:49Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。