論文の概要: Learning semantical dynamics and spatiotemporal collaboration for human pose estimation in video
- arxiv url: http://arxiv.org/abs/2502.10616v1
- Date: Sat, 15 Feb 2025 00:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:39.841124
- Title: Learning semantical dynamics and spatiotemporal collaboration for human pose estimation in video
- Title(参考訳): ビデオにおける人間のポーズ推定のための意味力学と時空間協調学習
- Authors: Runyang Feng, Haoming Chen,
- Abstract要約: マルチレベル意味論と多フレーム人間のポーズ推定を学習する新しいフレームワークを提案する。
具体的には、まずマルチタスクコンテキストを設計し、再構築戦略を示す。
この戦略は、光学(パッチ)立方体とフレームの特徴を徐々に隠蔽することにより、フレーム間の多時的意味関係を探索するモデルを刺激する。
- 参考スコア(独自算出の注目度): 3.2195139886901813
- License:
- Abstract: Temporal modeling and spatio-temporal collaboration are pivotal techniques for video-based human pose estimation. Most state-of-the-art methods adopt optical flow or temporal difference, learning local visual content correspondence across frames at the pixel level, to capture motion dynamics. However, such a paradigm essentially relies on localized pixel-to-pixel similarity, which neglects the semantical correlations among frames and is vulnerable to image quality degradations (e.g. occlusions or blur). Moreover, existing approaches often combine motion and spatial (appearance) features via simple concatenation or summation, leading to practical challenges in fully leveraging these distinct modalities. In this paper, we present a novel framework that learns multi-level semantical dynamics and dense spatio-temporal collaboration for multi-frame human pose estimation. Specifically, we first design a Multi-Level Semantic Motion Encoder using a multi-masked context and pose reconstruction strategy. This strategy stimulates the model to explore multi-granularity spatiotemporal semantic relationships among frames by progressively masking the features of (patch) cubes and frames. We further introduce a Spatial-Motion Mutual Learning module which densely propagates and consolidates context information from spatial and motion features to enhance the capability of the model. Extensive experiments demonstrate that our approach sets new state-of-the-art results on three benchmark datasets, PoseTrack2017, PoseTrack2018, and PoseTrack21.
- Abstract(参考訳): テンポラルモデリングと時空間協調は、ビデオに基づく人間のポーズ推定において重要な手法である。
ほとんどの最先端の手法は光学的フローや時間差を採用し、ピクセルレベルでフレーム間の局所的な視覚的コンテンツ対応を学習し、動きのダイナミクスを捉える。
しかし、そのようなパラダイムは基本的には、フレーム間のセマンティックな相関を無視し、画質の劣化(例えばオクルージョンやぼかし)に弱い局所化ピクセル間の類似性に依存している。
さらに、既存のアプローチは、単純な結合や和を通じて、運動と空間的(外観)の特徴を結合することが多く、これらの異なるモダリティを完全に活用する上での実践的な挑戦につながっている。
本稿では,多段階のセマンティック・ダイナミクスと高密度時空間協調を学習し,多フレーム人間のポーズ推定を行う新しいフレームワークを提案する。
具体的には、まずマルチレベルセマンティック・モーション・エンコーダを、マルチタスクコンテキストを用いて設計し、再構成戦略を示す。
この戦略は、(パッチ)立方体とフレームの特徴を段階的にマスキングすることにより、フレーム間の多粒度時空間的意味関係を探索するモデルを刺激する。
さらに、空間的・運動的特徴からコンテキスト情報を密に伝播・統合し、モデルの能力を高める空間移動相互学習モジュールを導入する。
大規模な実験により、我々のアプローチは3つのベンチマークデータセット、PoseTrack2017、PoseTrack2018、PoseTrack21に新しい最先端の結果をセットしている。
関連論文リスト
- Joint-Motion Mutual Learning for Pose Estimation in Videos [21.77871402339573]
ビデオにおける人間のポーズ推定は、コンピュータビジョンの領域において、説得力がありながら挑戦的な課題だった。
最近の手法では、ポーズ推定のためにバックボーンネットワークによって生成された複数フレームの視覚的特徴を統合することを目指している。
ポーズ推定のための新しい共同動作相互学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-05T07:37:55Z) - Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling [70.34875558830241]
本研究では,シーンをレンダリングする動的領域の階層化モデリングを可能にする意味的セマンティックギアに基づく,時間的(4D)埋め込みの学習方法を提案する。
同時に、ほぼ無償で、当社のトラッキングアプローチは、既存のNeRFベースのメソッドでまだ達成されていない機能である、自由視点(free-view of interest)を可能にします。
論文 参考訳(メタデータ) (2024-06-06T03:37:39Z) - Learning In-between Imagery Dynamics via Physical Latent Spaces [0.7366405857677226]
本稿では,連続した時間ステップで観察される2つの画像間の基礎となるダイナミクスを学習するためのフレームワークを提案する。
偏微分方程式(PDE)で表される物理モデルに従う潜在変数を組み込むことにより,本手法は学習モデルの解釈可能性を保証する。
地質画像データを用いた数値実験により,学習フレームワークの堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T05:14:51Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文 参考訳(メタデータ) (2023-03-15T09:29:03Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Motion Prediction via Joint Dependency Modeling in Phase Space [40.54430409142653]
我々は、運動解剖学の明示的な事前知識を活用するために、新しい畳み込みニューラルモデルを導入する。
次に,個々の関節機能間の暗黙的関係を学習するグローバル最適化モジュールを提案する。
本手法は,大規模な3次元人体動作ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-01-07T08:30:01Z) - Multi-modal Visual Place Recognition in Dynamics-Invariant Perception
Space [23.43468556831308]
このレターは、動的環境における位置認識を改善するために、意味的および視覚的モダリティのマルチモーダル融合の使用を探求する。
これを実現するには、まず静的セマンティックセグメンテーションを生成するための新しいディープラーニングアーキテクチャを設計します。
次に,空間的ピラミドマッチングモデルを用いて,静的意味セグメンテーションを特徴ベクトルに符号化する。
並行して、静的なイメージは人気のあるbag-of-wordsモデルを使ってエンコードされる。
論文 参考訳(メタデータ) (2021-05-17T13:14:52Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。