Fugu-MT 論文翻訳(概要): Action Segmentation Using 2D Skeleton Heatmaps and Multi-Modality Fusion

論文の概要: Action Segmentation Using 2D Skeleton Heatmaps and Multi-Modality Fusion

arxiv url: http://arxiv.org/abs/2309.06462v3
Date: Fri, 26 Apr 2024 02:53:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 18:07:56.543654
Title: Action Segmentation Using 2D Skeleton Heatmaps and Multi-Modality Fusion
Title（参考訳）: 2次元スケルトン熱マップと多モード融合を用いたアクションセグメンテーション
Authors: Syed Waleed Hyder, Muhammad Usama, Anas Zafar, Muhammad Naufil, Fawad Javed Fateh, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran,
Abstract要約: 本稿では,微細な人間の行動認識に応用した2次元骨格に基づくアクションセグメンテーション法を提案する。我々の知る限り、これは2Dスケルトン熱マップ入力を利用する最初の研究であり、アクションセグメンテーションのために2Dスケルトン融合を探索する最初の試みである。
参考スコア（独自算出の注目度）: 6.449382771570842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a 2D skeleton-based action segmentation method with applications in fine-grained human activity recognition. In contrast with state-of-the-art methods which directly take sequences of 3D skeleton coordinates as inputs and apply Graph Convolutional Networks (GCNs) for spatiotemporal feature learning, our main idea is to use sequences of 2D skeleton heatmaps as inputs and employ Temporal Convolutional Networks (TCNs) to extract spatiotemporal features. Despite lacking 3D information, our approach yields comparable/superior performances and better robustness against missing keypoints than previous methods on action segmentation datasets. Moreover, we improve the performances further by using both 2D skeleton heatmaps and RGB videos as inputs. To our best knowledge, this is the first work to utilize 2D skeleton heatmap inputs and the first work to explore 2D skeleton+RGB fusion for action segmentation.
Abstract（参考訳）: 本稿では,微細な人間の行動認識に応用した2次元骨格に基づくアクションセグメンテーション法を提案する。時空間特徴学習において3次元骨格座標のシーケンスを直接入力として取り込んでグラフ畳み込みネットワーク(GCN)を適用する最先端の手法とは対照的に,我々は2次元骨格熱マップのシーケンスを入力として使用し,時空間畳み込みネットワーク(TCN)を用いて時空間特徴を抽出する。 3D情報がないにもかかわらず、我々の手法は、従来のアクションセグメンテーションデータセットの手法よりも、同等/上位のパフォーマンスと欠落キーポイントに対する堅牢性が得られる。さらに、2DスケルトンヒートマップとRGBビデオの両方を入力として使用することで、パフォーマンスをさらに向上する。我々の知る限り、これは2Dスケルトン熱マップ入力を利用する最初の研究であり、アクションセグメンテーションのために2Dスケルトン+RGB融合を探索する最初の研究である。

関連論文リスト

Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models [53.32092058519587]
Stroke3Dは、ユーザ入力から2D描画ストロークと記述テキストプロンプトを直接生成する新しいフレームワークである。私たちの知識を最大限に活用するために、私たちの研究は、ユーザ引き起こされた2Dストロークに条件付けされたトリグされた3Dメッシュを初めて生成しました。
論文参考訳（メタデータ） (2026-02-10T12:17:00Z)
xMOD: Cross-Modal Distillation for 2D/3D Multi-Object Discovery from 2D motion [4.878192303432336]
DIOD-3Dは2Dモーションを用いた3Dデータにおけるマルチオブジェクト発見のための最初のベースラインである。 xMODは、常に2Dモーションキューを使用しながら、2Dと3Dデータを統合したクロスプラットフォームのトレーニングフレームワークである。提案手法は,全データセットの2次元オブジェクト発見状態と比較すると,大幅な性能向上をもたらす。
論文参考訳（メタデータ） (2025-03-19T09:20:35Z)
Occupancy-Based Dual Contouring [12.944046673902415]
本稿では,2重畳み込み方式を提案する。本手法は,GPU並列化を最大化するために,学習不要かつ慎重に設計されている。
論文参考訳（メタデータ） (2024-09-20T11:32:21Z)
ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文参考訳（メタデータ） (2023-11-29T20:30:18Z)
One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton Matching [77.6989219290789]
ワンショットスケルトン行動認識は、単一のトレーニングサンプルでスケルトン行動認識モデルを学ぶことを目的としている。本稿では,マルチスケールな時空間特徴マッチングによる骨格行動認識を行う新しい一発骨格行動認識手法を提案する。
論文参考訳（メタデータ） (2023-07-14T11:52:10Z)
Learning by Aligning 2D Skeleton Sequences and Multi-Modality Fusion [8.153034573979856]
本稿では,人間の行動理解作業の微粒化に有用な,自己監督型時間的ビデオアライメントフレームワークを提案する。 3Dスケルトン座標の配列を入力として直接取り込む最先端の手法であるCASAとは対照的に、我々のキーアイデアは2Dスケルトン熱マップのシーケンスを入力として使用することである。
論文参考訳（メタデータ） (2023-05-31T01:16:08Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
IMENet: Joint 3D Semantic Scene Completion and 2D Semantic Segmentation through Iterative Mutual Enhancement [12.091735711364239]
本稿では,3次元セマンティックシーン補完と2次元セマンティックセマンティックセグメンテーションを解決するために,IMENet(Iterative Mutual Enhancement Network)を提案する。 IMENetは、後期予測段階で2つのタスクをインタラクティブに洗練します。提案手法は,3次元セマンティックシーンの完成と2次元セマンティックセマンティックセグメンテーションの両面において,最先端技術である。
論文参考訳（メタデータ） (2021-06-29T13:34:20Z)
Leveraging Third-Order Features in Skeleton-Based Action Recognition [26.349722372701482]
スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。最近のアクション認識法は、特徴融合のためのグラフニューラルネットワークでこれらの表現を使用して、空間時間的キューとして3D関節座標から特徴を抽出します。関節と体部の関係を強固に捉えるため、角度の3次的特徴を現代建築に融合させることを提案します。
論文参考訳（メタデータ） (2021-05-04T15:23:29Z)
Revisiting Skeleton-based Action Recognition [107.08112310075114]
PoseC3Dは骨格に基づく行動認識の新しいアプローチであり、代わりに人間の骨格のベース表現としてグラフシーケンスを積み重ねる3Dヒートマップに依存している。 4つの挑戦的なデータセットにおいて、PoseC3Dは、スケルトン上で単独で使用し、RGBモダリティと組み合わせることで、常に優れたパフォーマンスを得る。
論文参考訳（メタデータ） (2021-04-28T06:32:17Z)
MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文参考訳（メタデータ） (2020-06-22T08:50:09Z)
Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2020-03-31T11:28:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。