論文の概要: Generative Hierarchical Temporal Transformer for Hand Action Recognition
and Motion Prediction
- arxiv url: http://arxiv.org/abs/2311.17366v2
- Date: Mon, 25 Dec 2023 03:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:20:30.568196
- Title: Generative Hierarchical Temporal Transformer for Hand Action Recognition
and Motion Prediction
- Title(参考訳): ハンドアクション認識と動作予測のための階層型時間変換器
- Authors: Yilin Wen, Hao Pan, Takehiko Ohkawa, Lei Yang, Jia Pan, Yoichi Sato,
Taku Komura, Wenping Wang
- Abstract要約: 本稿では,手の動き認識と3次元手の動き予測を同時に行う新しいフレームワークを提案する。
フレームワークは複数のデータセットにまたがってトレーニングされ、ポーズとアクションブロックは個別にトレーニングされ、ポーズアクションアノテーションを完全に活用する。
- 参考スコア(独自算出の注目度): 70.86769090545076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel framework that concurrently tackles hand action
recognition and 3D future hand motion prediction. While previous works focus on
either recognition or prediction, we propose a generative Transformer VAE
architecture to jointly capture both aspects, facilitating realistic motion
prediction by leveraging the short-term hand motion and long-term action
consistency observed across timestamps. To ensure faithful representation of
the semantic dependency and different temporal granularity of hand pose and
action, our framework is decomposed into two cascaded VAE blocks. The lower
pose block models short-span poses, while the upper action block models
long-span action. These are connected by a mid-level feature that represents
sub-second series of hand poses. Our framework is trained across multiple
datasets, where pose and action blocks are trained separately to fully utilize
pose-action annotations of different qualities. Evaluations show that on
multiple datasets, the joint modeling of recognition and prediction improves
over separate solutions, and the semantic and temporal hierarchy enables
long-term pose and action modeling.
- Abstract(参考訳): ハンドアクション認識と3次元手の動き予測を同時に行う新しいフレームワークを提案する。
従来の研究は認識と予測に重点を置いていたが,両面を共同で捉えるための生成型トランスフォーマーVAEアーキテクチャを提案し,短期手の動きとタイムスタンプ間の長期動作の整合性を利用して,現実的な動作予測を容易にする。
セマンティック依存関係の忠実な表現とポーズとアクションの時間的粒度の相違を保証するため,本フレームワークを2つのVAEブロックに分解する。
下部のポーズブロックはショートスパンのポーズを、上部のアクションブロックはロングスパンのアクションをモデル化する。
これらは、ハンドポーズのサブ秒列を表す中間レベル機能によって接続されます。
私たちのフレームワークは、複数のデータセットでトレーニングされ、ポーズとアクションブロックは別々にトレーニングされ、異なる品質のポーズアクションアノテーションを十分に活用します。
評価の結果、複数のデータセットにおいて、認識と予測のジョイントモデリングは、別々のソリューションよりも改善され、意味階層と時間階層は、長期的なポーズとアクションモデリングを可能にする。
関連論文リスト
- DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文 参考訳(メタデータ) (2023-03-15T09:29:03Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Conditional Temporal Variational AutoEncoder for Action Video Prediction [66.63038712306606]
ACT-VAEは、単一の入力画像からアクションクリップのポーズシーケンスを予測する。
プラグアンドプレイのP2Iネットワークに接続すると、ACT-VAEは画像シーケンスを合成できる。
論文 参考訳(メタデータ) (2021-08-12T10:59:23Z) - RAIN: Reinforced Hybrid Attention Inference Network for Motion
Forecasting [34.54878390622877]
本稿では,ハイブリットアテンション機構に基づく動的キー情報の選択とランク付けを行う汎用的な動き予測フレームワークを提案する。
このフレームワークは、マルチエージェント軌道予測と人間の動き予測タスクを処理するためにインスタンス化される。
我々は,異なる領域における合成シミュレーションと運動予測ベンチマークの両方について,その枠組みを検証した。
論文 参考訳(メタデータ) (2021-08-03T06:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。