論文の概要: Action Segmentation Using 2D Skeleton Heatmaps and Multi-Modality Fusion
- arxiv url: http://arxiv.org/abs/2309.06462v3
- Date: Fri, 26 Apr 2024 02:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 18:07:56.543654
- Title: Action Segmentation Using 2D Skeleton Heatmaps and Multi-Modality Fusion
- Title(参考訳): 2次元スケルトン熱マップと多モード融合を用いたアクションセグメンテーション
- Authors: Syed Waleed Hyder, Muhammad Usama, Anas Zafar, Muhammad Naufil, Fawad Javed Fateh, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran,
- Abstract要約: 本稿では,微細な人間の行動認識に応用した2次元骨格に基づくアクションセグメンテーション法を提案する。
我々の知る限り、これは2Dスケルトン熱マップ入力を利用する最初の研究であり、アクションセグメンテーションのために2Dスケルトン融合を探索する最初の試みである。
- 参考スコア(独自算出の注目度): 6.449382771570842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a 2D skeleton-based action segmentation method with applications in fine-grained human activity recognition. In contrast with state-of-the-art methods which directly take sequences of 3D skeleton coordinates as inputs and apply Graph Convolutional Networks (GCNs) for spatiotemporal feature learning, our main idea is to use sequences of 2D skeleton heatmaps as inputs and employ Temporal Convolutional Networks (TCNs) to extract spatiotemporal features. Despite lacking 3D information, our approach yields comparable/superior performances and better robustness against missing keypoints than previous methods on action segmentation datasets. Moreover, we improve the performances further by using both 2D skeleton heatmaps and RGB videos as inputs. To our best knowledge, this is the first work to utilize 2D skeleton heatmap inputs and the first work to explore 2D skeleton+RGB fusion for action segmentation.
- Abstract(参考訳): 本稿では,微細な人間の行動認識に応用した2次元骨格に基づくアクションセグメンテーション法を提案する。
時空間特徴学習において3次元骨格座標のシーケンスを直接入力として取り込んでグラフ畳み込みネットワーク(GCN)を適用する最先端の手法とは対照的に,我々は2次元骨格熱マップのシーケンスを入力として使用し,時空間畳み込みネットワーク(TCN)を用いて時空間特徴を抽出する。
3D情報がないにもかかわらず、我々の手法は、従来のアクションセグメンテーションデータセットの手法よりも、同等/上位のパフォーマンスと欠落キーポイントに対する堅牢性が得られる。
さらに、2DスケルトンヒートマップとRGBビデオの両方を入力として使用することで、パフォーマンスをさらに向上する。
我々の知る限り、これは2Dスケルトン熱マップ入力を利用する最初の研究であり、アクションセグメンテーションのために2Dスケルトン+RGB融合を探索する最初の研究である。
関連論文リスト
- Occupancy-Based Dual Contouring [12.944046673902415]
本稿では,2重畳み込み方式を提案する。
本手法は,GPU並列化を最大化するために,学習不要かつ慎重に設計されている。
論文 参考訳(メタデータ) (2024-09-20T11:32:21Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton
Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。
本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T11:52:10Z) - Learning by Aligning 2D Skeleton Sequences and Multi-Modality Fusion [8.153034573979856]
本稿では,人間の行動理解作業の微粒化に有用な,自己監督型時間的ビデオアライメントフレームワークを提案する。
3Dスケルトン座標の配列を入力として直接取り込む最先端の手法であるCASAとは対照的に、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。
論文 参考訳(メタデータ) (2023-05-31T01:16:08Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - IMENet: Joint 3D Semantic Scene Completion and 2D Semantic Segmentation
through Iterative Mutual Enhancement [12.091735711364239]
本稿では,3次元セマンティックシーン補完と2次元セマンティックセマンティックセグメンテーションを解決するために,IMENet(Iterative Mutual Enhancement Network)を提案する。
IMENetは、後期予測段階で2つのタスクをインタラクティブに洗練します。
提案手法は,3次元セマンティックシーンの完成と2次元セマンティックセマンティックセグメンテーションの両面において,最先端技術である。
論文 参考訳(メタデータ) (2021-06-29T13:34:20Z) - Leveraging Third-Order Features in Skeleton-Based Action Recognition [26.349722372701482]
スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。
最近のアクション認識法は、特徴融合のためのグラフニューラルネットワークでこれらの表現を使用して、空間時間的キューとして3D関節座標から特徴を抽出します。
関節と体部の関係を強固に捉えるため、角度の3次的特徴を現代建築に融合させることを提案します。
論文 参考訳(メタデータ) (2021-05-04T15:23:29Z) - Revisiting Skeleton-based Action Recognition [107.08112310075114]
PoseC3Dは骨格に基づく行動認識の新しいアプローチであり、代わりに人間の骨格のベース表現としてグラフシーケンスを積み重ねる3Dヒートマップに依存している。
4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-04-28T06:32:17Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。