Fugu-MT 論文翻訳(概要): Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling

論文の概要: Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling

arxiv url: http://arxiv.org/abs/2311.17366v3
Date: Sat, 7 Sep 2024 00:44:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 03:42:43.811621
Title: Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling
Title（参考訳）: ハンドポーズとアクションモデリングのための階層型時間変換器
Authors: Yilin Wen, Hao Pan, Takehiko Ohkawa, Lei Yang, Jia Pan, Yoichi Sato, Taku Komura, Wenping Wang,
Abstract要約: ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
参考スコア（独自算出の注目度）: 67.94143911629143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel unified framework that concurrently tackles recognition and future prediction for human hand pose and action modeling. Previous works generally provide isolated solutions for either recognition or prediction, which not only increases the complexity of integration in practical applications, but more importantly, cannot exploit the synergy of both sides and suffer suboptimal performances in their respective domains. To address this problem, we propose a generative Transformer VAE architecture to model hand pose and action, where the encoder and decoder capture recognition and prediction respectively, and their connection through the VAE bottleneck mandates the learning of consistent hand motion from the past to the future and vice versa. Furthermore, to faithfully model the semantic dependency and different temporal granularity of hand pose and action, we decompose the framework into two cascaded VAE blocks: the first and latter blocks respectively model the short-span poses and long-span action, and are connected by a mid-level feature representing a sub-second series of hand poses. This decomposition into block cascades facilitates capturing both short-term and long-term temporal regularity in pose and action modeling, and enables training two blocks separately to fully utilize datasets with annotations of different temporal granularities. We train and evaluate our framework across multiple datasets; results show that our joint modeling of recognition and prediction improves over isolated solutions, and that our semantic and temporal hierarchy facilitates long-term pose and action modeling.
Abstract（参考訳）: 本稿では,人間の手ポーズとアクションモデリングの認識と将来の予測を同時に扱う,新しい統合フレームワークを提案する。従来の研究は一般的に、認識または予測のいずれに対しても独立したソリューションを提供しており、実際的なアプリケーションにおける統合の複雑さを増大させるだけでなく、より重要なことは、双方のシナジーを活用できず、それぞれのドメインで最適以下のパフォーマンスを損なうことができないことである。本稿では,手ポーズと動作をモデル化するための生成型トランスフォーマーVAEアーキテクチャを提案する。このアーキテクチャでは,エンコーダとデコーダがそれぞれ認識と予測を行い,それらの接続は,過去から未来への一貫した手の動きの学習を義務付けている。さらに,手ポーズと動作のセマンティック依存性と時間的粒度を忠実にモデル化するため,第1ブロックと第2ブロックはそれぞれ短距離ポーズと長周期動作をモデル化し,第2次手ポーズのサブ秒列を表す中間レベル特徴によって接続する。このブロックカスケードへの分解は、ポーズおよびアクションモデリングにおける短期的および長期的時間的規則性の両方をキャプチャし、異なる時間的粒度のアノテーションでデータセットを完全に活用する2つのブロックを個別に訓練することを可能にする。我々は、複数のデータセットでフレームワークをトレーニングし、評価し、その結果、認識と予測の協調モデリングは、孤立したソリューションよりも改善され、セマンティックな階層と時間的階層が、長期的なポーズとアクションモデリングを促進することを示した。

関連論文リスト

Towards Consistent Long-Term Pose Generation [0.0]
最小限の文脈から連続座標空間のポーズを直接生成する新しいワンステージアーキテクチャを提案する。私たちの重要なイノベーションは、中間表現やトークンベースの生成の必要性を排除することです。提案手法は,特に長期発生シナリオにおいて,既存の量子化法と自己回帰法を著しく上回っている。
論文参考訳（メタデータ） (2025-07-24T12:57:22Z)
Learning Time-Aware Causal Representation for Model Generalization in Evolving Domains [50.66049136093248]
動的因果要因と因果機構のドリフトを組み込んだ時間認識型構造因果モデル(SCM)を開発した。本研究では,時間領域毎に最適な因果予測値が得られることを示す。合成と実世界の両方のデータセットの結果から,SynCは時間的一般化性能に優れることが示された。
論文参考訳（メタデータ） (2025-06-21T14:05:37Z)
Aligning Foundation Model Priors and Diffusion-Based Hand Interactions for Occlusion-Resistant Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置や閉塞が原因で、永続的な課題に直面している。既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。本研究では,基礎モデルに基づく2次元先行モデルと拡散に基づく相互作用改善を組み込むことにより,手振りとインタラクションを正確に整合させる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T14:42:27Z)
SpatioTemporal Learning for Human Pose Estimation in Sparsely-Labeled Videos [18.37601213802529]
STDPoseは、疎ラベルビデオの学習による人間のポーズ推定を強化する新しいフレームワークである。 STDPoseは、ビデオポーズ伝搬(ラベル付きフレームからラベル付きフレームへのポーズの伝播)とポーズ推定タスクの両方のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-01-25T04:43:12Z)
Multi-agent Long-term 3D Human Pose Forecasting via Interaction-aware Trajectory Conditioning [41.09061877498741]
本稿では,対話型トラジェクトリ条件付き長期マルチエージェントヒューマンポーズ予測モデルを提案する。本モデルは,人間の動作の多モード性と長期多エージェント相互作用の複雑さを効果的に扱う。
論文参考訳（メタデータ） (2024-04-08T06:15:13Z)
Disentangled Neural Relational Inference for Interpretable Motion Prediction [38.40799770648501]
グラフベース表現と時系列モデルを統合した変分自動エンコーダフレームワークを開発した。本モデルでは,対話を特徴付ける解釈可能なエッジ特徴を付加した動的相互作用グラフを推論する。シミュレーションと実世界の両方のデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
論文参考訳（メタデータ） (2024-01-07T22:49:24Z)
A Decoupled Spatio-Temporal Framework for Skeleton-based Action Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。 DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2023-12-10T09:11:39Z)
TimeTuner: Diagnosing Time Representations for Time-Series Forecasting with Counterfactual Explanations [3.8357850372472915]
本稿では,モデル行動が局所化,定常性,時系列表現の相関とどのように関連しているかをアナリストが理解するために,新しいビジュアル分析フレームワークであるTimeTunerを提案する。 TimeTunerは時系列表現を特徴付けるのに役立ち、機能エンジニアリングのプロセスを導くのに役立ちます。
論文参考訳（メタデータ） (2023-07-19T11:40:15Z)
Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。 2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文参考訳（メタデータ） (2022-09-20T05:52:54Z)
Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文参考訳（メタデータ） (2022-04-25T19:06:48Z)
Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文参考訳（メタデータ） (2021-06-15T11:39:49Z)
Unsupervised Video Decomposition using Spatio-temporal Iterative Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。色情報のないモデルでも精度が高いことを示す。本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-06-25T22:57:17Z)
Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文参考訳（メタデータ） (2020-06-19T17:28:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。