Fugu-MT 論文翻訳(概要): Generative Hierarchical Temporal Transformer for Hand Action Recognition and Motion Prediction

論文の概要: Generative Hierarchical Temporal Transformer for Hand Action Recognition and Motion Prediction

arxiv url: http://arxiv.org/abs/2311.17366v2
Date: Mon, 25 Dec 2023 03:54:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 21:20:30.568196
Title: Generative Hierarchical Temporal Transformer for Hand Action Recognition and Motion Prediction
Title（参考訳）: ハンドアクション認識と動作予測のための階層型時間変換器
Authors: Yilin Wen, Hao Pan, Takehiko Ohkawa, Lei Yang, Jia Pan, Yoichi Sato, Taku Komura, Wenping Wang
Abstract要約: 本稿では,手の動き認識と3次元手の動き予測を同時に行う新しいフレームワークを提案する。フレームワークは複数のデータセットにまたがってトレーニングされ、ポーズとアクションブロックは個別にトレーニングされ、ポーズアクションアノテーションを完全に活用する。
参考スコア（独自算出の注目度）: 70.86769090545076
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel framework that concurrently tackles hand action recognition and 3D future hand motion prediction. While previous works focus on either recognition or prediction, we propose a generative Transformer VAE architecture to jointly capture both aspects, facilitating realistic motion prediction by leveraging the short-term hand motion and long-term action consistency observed across timestamps. To ensure faithful representation of the semantic dependency and different temporal granularity of hand pose and action, our framework is decomposed into two cascaded VAE blocks. The lower pose block models short-span poses, while the upper action block models long-span action. These are connected by a mid-level feature that represents sub-second series of hand poses. Our framework is trained across multiple datasets, where pose and action blocks are trained separately to fully utilize pose-action annotations of different qualities. Evaluations show that on multiple datasets, the joint modeling of recognition and prediction improves over separate solutions, and the semantic and temporal hierarchy enables long-term pose and action modeling.
Abstract（参考訳）: ハンドアクション認識と3次元手の動き予測を同時に行う新しいフレームワークを提案する。従来の研究は認識と予測に重点を置いていたが,両面を共同で捉えるための生成型トランスフォーマーVAEアーキテクチャを提案し,短期手の動きとタイムスタンプ間の長期動作の整合性を利用して,現実的な動作予測を容易にする。セマンティック依存関係の忠実な表現とポーズとアクションの時間的粒度の相違を保証するため,本フレームワークを2つのVAEブロックに分解する。下部のポーズブロックはショートスパンのポーズを、上部のアクションブロックはロングスパンのアクションをモデル化する。これらは、ハンドポーズのサブ秒列を表す中間レベル機能によって接続されます。私たちのフレームワークは、複数のデータセットでトレーニングされ、ポーズとアクションブロックは別々にトレーニングされ、異なる品質のポーズアクションアノテーションを十分に活用します。評価の結果、複数のデータセットにおいて、認識と予測のジョイントモデリングは、別々のソリューションよりも改善され、意味階層と時間階層は、長期的なポーズとアクションモデリングを可能にする。

関連論文リスト

End-to-End Multi-Person Pose Estimation with Pose-Aware Video Transformer [7.19764062839405]
ビデオにおける多人数2Dポーズ推定のためのエンドツーエンドフレームワークを提案する。鍵となる課題は、複雑な時間軌道と重なり合う時間軌道の下で、個人をフレーム全体で関連付けることである。本稿では,フレーム内関係と時間デコーダのポーズをモデル化するための空間エンコーダを備えた新しいPose-Aware VideoErEr Network(PAVE-Net)を提案する。
論文参考訳（メタデータ） (2025-11-17T10:19:35Z)
Towards Consistent Long-Term Pose Generation [0.0]
最小限の文脈から連続座標空間のポーズを直接生成する新しいワンステージアーキテクチャを提案する。私たちの重要なイノベーションは、中間表現やトークンベースの生成の必要性を排除することです。提案手法は,特に長期発生シナリオにおいて,既存の量子化法と自己回帰法を著しく上回っている。
論文参考訳（メタデータ） (2025-07-24T12:57:22Z)
Learning Time-Aware Causal Representation for Model Generalization in Evolving Domains [50.66049136093248]
動的因果要因と因果機構のドリフトを組み込んだ時間認識型構造因果モデル(SCM)を開発した。本研究では,時間領域毎に最適な因果予測値が得られることを示す。合成と実世界の両方のデータセットの結果から,SynCは時間的一般化性能に優れることが示された。
論文参考訳（メタデータ） (2025-06-21T14:05:37Z)
Aligning Foundation Model Priors and Diffusion-Based Hand Interactions for Occlusion-Resistant Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置や閉塞が原因で、永続的な課題に直面している。既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。本研究では,基礎モデルに基づく2次元先行モデルと拡散に基づく相互作用改善を組み込むことにより,手振りとインタラクションを正確に整合させる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T14:42:27Z)
SpatioTemporal Learning for Human Pose Estimation in Sparsely-Labeled Videos [18.37601213802529]
STDPoseは、疎ラベルビデオの学習による人間のポーズ推定を強化する新しいフレームワークである。 STDPoseは、ビデオポーズ伝搬(ラベル付きフレームからラベル付きフレームへのポーズの伝播)とポーズ推定タスクの両方のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-01-25T04:43:12Z)
Multi-agent Long-term 3D Human Pose Forecasting via Interaction-aware Trajectory Conditioning [41.09061877498741]
本稿では,対話型トラジェクトリ条件付き長期マルチエージェントヒューマンポーズ予測モデルを提案する。本モデルは,人間の動作の多モード性と長期多エージェント相互作用の複雑さを効果的に扱う。
論文参考訳（メタデータ） (2024-04-08T06:15:13Z)
Disentangled Neural Relational Inference for Interpretable Motion Prediction [38.40799770648501]
グラフベース表現と時系列モデルを統合した変分自動エンコーダフレームワークを開発した。本モデルでは,対話を特徴付ける解釈可能なエッジ特徴を付加した動的相互作用グラフを推論する。シミュレーションと実世界の両方のデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
論文参考訳（メタデータ） (2024-01-07T22:49:24Z)
A Decoupled Spatio-Temporal Framework for Skeleton-based Action Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。 DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2023-12-10T09:11:39Z)
TimeTuner: Diagnosing Time Representations for Time-Series Forecasting with Counterfactual Explanations [3.8357850372472915]
本稿では,モデル行動が局所化,定常性,時系列表現の相関とどのように関連しているかをアナリストが理解するために,新しいビジュアル分析フレームワークであるTimeTunerを提案する。 TimeTunerは時系列表現を特徴付けるのに役立ち、機能エンジニアリングのプロセスを導くのに役立ちます。
論文参考訳（メタデータ） (2023-07-19T11:40:15Z)
Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。 2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文参考訳（メタデータ） (2022-09-20T05:52:54Z)
Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文参考訳（メタデータ） (2022-04-25T19:06:48Z)
Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文参考訳（メタデータ） (2021-06-15T11:39:49Z)
Unsupervised Video Decomposition using Spatio-temporal Iterative Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。色情報のないモデルでも精度が高いことを示す。本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-06-25T22:57:17Z)
Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文参考訳（メタデータ） (2020-06-19T17:28:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。