論文の概要: Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition
- arxiv url: http://arxiv.org/abs/2112.09129v1
- Date: Thu, 16 Dec 2021 18:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 16:20:15.464174
- Title: Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition
- Title(参考訳): RGB-Dに基づく動き認識のための時空間表現のデカップリングと再結合
- Authors: Benjia Zhou and Pichao Wang and Jun Wan and Yanyan Liang and Fan Wang
and Du Zhang and Zhen Lei and Hao Li and Rong Jin
- Abstract要約: 従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
- 参考スコア(独自算出の注目度): 62.46544616232238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoupling spatiotemporal representation refers to decomposing the spatial
and temporal features into dimension-independent factors. Although previous
RGB-D-based motion recognition methods have achieved promising performance
through the tightly coupled multi-modal spatiotemporal representation, they
still suffer from (i) optimization difficulty under small data setting due to
the tightly spatiotemporal-entangled modeling;(ii) information redundancy as it
usually contains lots of marginal information that is weakly relevant to
classification; and (iii) low interaction between multi-modal spatiotemporal
information caused by insufficient late fusion. To alleviate these drawbacks,
we propose to decouple and recouple spatiotemporal representation for
RGB-D-based motion recognition. Specifically, we disentangle the task of
learning spatiotemporal representation into 3 sub-tasks: (1) Learning
high-quality and dimension independent features through a decoupled spatial and
temporal modeling network. (2) Recoupling the decoupled representation to
establish stronger space-time dependency. (3) Introducing a Cross-modal
Adaptive Posterior Fusion (CAPF) mechanism to capture cross-modal
spatiotemporal information from RGB-D data. Seamless combination of these novel
designs forms a robust spatialtemporal representation and achieves better
performance than state-of-the-art methods on four public motion datasets. Our
code is available at https://github.com/damo-cv/MotionRGBD.
- Abstract(参考訳): 時空間表現の分離は空間的特徴と時間的特徴を次元に依存しない要因に分解することを指す。
従来のRGB-Dに基づく動き認識法は、密結合型マルチモーダル時空間表現によって有望な性能を達成したが、それでもなお苦しめられている。
一 厳密な時空間交絡モデリングによる小データ設定時の最適化の難しさ
(二 情報冗長性は通常、分類に関係の弱い余分な情報を多数含んでいること、及び
(iii)遅れ融合による多モード時空間情報の相互作用の低さ。
これらの欠点を軽減するために,RGB-Dに基づく動き認識のための時空間表現の分離と再結合を提案する。
具体的には,時空間表現のタスクを3つのサブタスクに分割する:(1)空間的・時間的ネットワークを疎結合にすることで,高品質・次元的に独立した特徴を学習する。
2)より強い時空依存を確立するために疎結合表現を再結合する。
(3)RGB-Dデータから経時的クロスモーダル情報を取得するためのCross-modal Adaptive Posterior Fusion (CAPF) 機構の導入
これらの新しいデザインのシームレスな組み合わせは、頑健な時空間表現を形成し、4つの公開運動データセットの最先端手法よりも優れたパフォーマンスを達成する。
私たちのコードはhttps://github.com/damo-cv/MotionRGBDで利用可能です。
関連論文リスト
- Surgformer: Surgical Transformer with Hierarchical Temporal Attention for Surgical Phase Recognition [7.682613953680041]
本稿では,空間時間モデルと冗長性の問題に終末的に対処する手術用トランスフォーマー(サージフォーマー)を提案する。
提案するサージフォーマーは,最先端の手法に対して良好に機能することを示す。
論文 参考訳(メタデータ) (2024-08-07T16:16:31Z) - Multi-stage Factorized Spatio-Temporal Representation for RGB-D Action
and Gesture Recognition [30.975823858419965]
我々は、RGB-Dアクションとジェスチャー認識のためのMFST(Multi-stage Factorized-Trans)と呼ばれる革新的なアーキテクチャを提案する。
MFSTモデルは、3次元差分コンステム(CDC-Stem)モジュールと複数の分解時間段階から構成される。
論文 参考訳(メタデータ) (2023-08-23T08:49:43Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion
Recognition [24.02488085447691]
そこで本稿では,MixUp の補足として機能する ShuffleMix という新しいビデオデータ拡張手法を提案する。
第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-16T19:00:23Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Spatial Temporal Graph Attention Network for Skeleton-Based Action
Recognition [10.60209288486904]
骨格に基づく行動認識の現在の手法では、主に長期の時間的依存関係のキャプチャを検討するのが一般的である。
本稿では,時空情報の流れをモデル化する汎用フレームワークSTGATを提案する。
STGATは3つの大規模データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T02:34:46Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。