論文の概要: Generative Hierarchical Temporal Transformer for Hand Action Recognition
and Motion Prediction
- arxiv url: http://arxiv.org/abs/2311.17366v1
- Date: Wed, 29 Nov 2023 05:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:27:57.348603
- Title: Generative Hierarchical Temporal Transformer for Hand Action Recognition
and Motion Prediction
- Title(参考訳): ハンドアクション認識と動作予測のための階層型時間変換器
- Authors: Yilin Wen, Hao Pan, Takehiko Ohkawa, Lei Yang, Jia Pan, Yoichi Sato,
Taku Komura, Wenping Wang
- Abstract要約: 本稿では,手の動き認識と3次元手の動き予測を同時に行う新しいフレームワークを提案する。
我々のフレームワークは複数のデータセットにまたがって訓練されており、異なる品質のポーズアクションアノテーションを完全に活用するために、ポーズブロックとアクションブロックを個別に訓練する。
- 参考スコア(独自算出の注目度): 70.86769090545076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel framework that concurrently tackles hand action
recognition and 3D future hand motion prediction. While previous works focus on
either recognition or prediction, we propose a generative Transformer VAE
architecture to jointly capture both aspects, facilitating realistic motion
prediction by leveraging the short-term hand motion and long-term action
consistency observed across timestamps.To ensure faithful representation of the
semantic dependency and different temporal granularity of hand pose and action,
our framework is decomposed into two cascaded VAE blocks. The lower pose block
models short-span poses, while the upper action block models long-span action.
These are connected by a mid-level feature that represents sub-second series of
hand poses.Our framework is trained across multiple datasets, where pose and
action blocks are trained separately to fully utilize pose-action annotations
of different qualities. Evaluations show that on multiple datasets, the joint
modeling of recognition and prediction improves over separate solutions, and
the semantic and temporal hierarchy enables long-term pose and action modeling.
- Abstract(参考訳): ハンドアクション認識と3次元手の動き予測を同時に行う新しいフレームワークを提案する。
先行研究は認識と予測のいずれにも焦点をあてるが,両側面を協調的に捉え,短時間のハンドモーションとタイムスタンプ間で観察される長期動作の一貫性を活かし,現実的な動作予測を容易にするための生成的トランスフォーマーvaeアーキテクチャを提案する。
下部のポーズブロックはショートスパンのポーズを、上部のアクションブロックはロングスパンのアクションをモデル化する。
フレームワークは複数のデータセットにわたってトレーニングされ、ポーズとアクションブロックは別々にトレーニングされ、異なる品質のポーズアクションアノテーションを十分に活用します。
評価の結果、複数のデータセットにおいて、認識と予測のジョイントモデリングは、別々のソリューションよりも改善され、意味階層と時間階層は、長期的なポーズとアクションモデリングを可能にする。
関連論文リスト
- Multi-agent Long-term 3D Human Pose Forecasting via Interaction-aware Trajectory Conditioning [41.09061877498741]
本稿では,対話型トラジェクトリ条件付き長期マルチエージェントヒューマンポーズ予測モデルを提案する。
本モデルは,人間の動作の多モード性と長期多エージェント相互作用の複雑さを効果的に扱う。
論文 参考訳(メタデータ) (2024-04-08T06:15:13Z) - Disentangled Neural Relational Inference for Interpretable Motion
Prediction [38.40799770648501]
グラフベース表現と時系列モデルを統合した変分自動エンコーダフレームワークを開発した。
本モデルでは,対話を特徴付ける解釈可能なエッジ特徴を付加した動的相互作用グラフを推論する。
シミュレーションと実世界の両方のデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-01-07T22:49:24Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - TimeTuner: Diagnosing Time Representations for Time-Series Forecasting
with Counterfactual Explanations [3.8357850372472915]
本稿では,モデル行動が局所化,定常性,時系列表現の相関とどのように関連しているかをアナリストが理解するために,新しいビジュアル分析フレームワークであるTimeTunerを提案する。
TimeTunerは時系列表現を特徴付けるのに役立ち、機能エンジニアリングのプロセスを導くのに役立ちます。
論文 参考訳(メタデータ) (2023-07-19T11:40:15Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。