論文の概要: Multi-stage Factorized Spatio-Temporal Representation for RGB-D Action
and Gesture Recognition
- arxiv url: http://arxiv.org/abs/2308.12006v1
- Date: Wed, 23 Aug 2023 08:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 14:56:28.542012
- Title: Multi-stage Factorized Spatio-Temporal Representation for RGB-D Action
and Gesture Recognition
- Title(参考訳): RGB-D動作とジェスチャー認識のための多段階分解時空間表現
- Authors: Yujun Ma, Benjia Zhou, Ruili Wang, Pichao Wang
- Abstract要約: 我々は、RGB-Dアクションとジェスチャー認識のためのMFST(Multi-stage Factorized-Trans)と呼ばれる革新的なアーキテクチャを提案する。
MFSTモデルは、3次元差分コンステム(CDC-Stem)モジュールと複数の分解時間段階から構成される。
- 参考スコア(独自算出の注目度): 30.975823858419965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-D action and gesture recognition remain an interesting topic in
human-centered scene understanding, primarily due to the multiple granularities
and large variation in human motion. Although many RGB-D based action and
gesture recognition approaches have demonstrated remarkable results by
utilizing highly integrated spatio-temporal representations across multiple
modalities (i.e., RGB and depth data), they still encounter several challenges.
Firstly, vanilla 3D convolution makes it hard to capture fine-grained motion
differences between local clips under different modalities. Secondly, the
intricate nature of highly integrated spatio-temporal modeling can lead to
optimization difficulties. Thirdly, duplicate and unnecessary information can
add complexity and complicate entangled spatio-temporal modeling. To address
the above issues, we propose an innovative heuristic architecture called
Multi-stage Factorized Spatio-Temporal (MFST) for RGB-D action and gesture
recognition. The proposed MFST model comprises a 3D Central Difference
Convolution Stem (CDC-Stem) module and multiple factorized spatio-temporal
stages. The CDC-Stem enriches fine-grained temporal perception, and the
multiple hierarchical spatio-temporal stages construct dimension-independent
higher-order semantic primitives. Specifically, the CDC-Stem module captures
bottom-level spatio-temporal features and passes them successively to the
following spatio-temporal factored stages to capture the hierarchical spatial
and temporal features through the Multi- Scale Convolution and Transformer
(MSC-Trans) hybrid block and Weight-shared Multi-Scale Transformer (WMS-Trans)
block. The seamless integration of these innovative designs results in a robust
spatio-temporal representation that outperforms state-of-the-art approaches on
RGB-D action and gesture recognition datasets.
- Abstract(参考訳): rgb-dアクションとジェスチャー認識は、主に複数の粒度と人間の動きのばらつきのために、人間中心のシーン理解において興味深いトピックである。
多くのRGB-Dに基づくアクションとジェスチャー認識アプローチは、複数のモード(例えばRGBと深度データ)にわたる高度に統合された時空間表現を利用することで、目覚ましい結果を示したが、それでもいくつかの課題に直面している。
まず、バニラ3d畳み込みは、異なるモードのローカルクリップ間のきめ細かい動きの違いを捉えるのを難しくする。
第二に、高度に統合された時空間モデリングの複雑な性質は最適化の困難をもたらす可能性がある。
第三に、重複した不要な情報により複雑さが増し、時空間モデリングが複雑になることがある。
以上の課題に対処するため、RGB-Dアクションとジェスチャー認識のためのMFST(Multi-stage Factorized Spatio-Temporal)と呼ばれる革新的なヒューリスティックアーキテクチャを提案する。
提案したMFSTモデルでは,3次元中央差分畳畳み込みステム(CDC-Stem)モジュールと多重分解時空間ステージからなる。
cdc-stemは粒度の細かい時間知覚を豊かにし、複数の階層的時空間段階は次元非依存な高次意味プリミティブを構築する。
特に、cdc-stemモジュールは、ボトムレベル時空間的特徴をキャプチャし、次に示す時空間的要因づけステージに順次通過し、マルチスケール畳み込みトランス(msc-trans)ハイブリッドブロックおよび重み共有マルチスケールトランス(wms-trans)ブロックを介して階層的空間的および時間的特徴をキャプチャする。
これらの革新的なデザインのシームレスな統合は、rgb-dアクションとジェスチャー認識データセットの最先端のアプローチを上回る堅牢な時空間表現をもたらす。
関連論文リスト
- Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文 参考訳(メタデータ) (2021-07-25T19:29:37Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - TEA: Temporal Excitation and Aggregation for Action Recognition [31.076707274791957]
本稿では,動作励起モジュールと複数時間集約モジュールを含む時間的励起・集約ブロックを提案する。
短距離モーションモデリングでは、MEモジュールは時間的特徴から特徴レベルの時間的差を計算する。
MTAモジュールは局所的な畳み込みを部分畳み込みのグループに変形させ、階層的残差アーキテクチャを形成することを提案している。
論文 参考訳(メタデータ) (2020-04-03T06:53:30Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。