論文の概要: Poseidon: A ViT-based Architecture for Multi-Frame Pose Estimation with Adaptive Frame Weighting and Multi-Scale Feature Fusion
- arxiv url: http://arxiv.org/abs/2501.08446v1
- Date: Tue, 14 Jan 2025 21:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:31.979758
- Title: Poseidon: A ViT-based Architecture for Multi-Frame Pose Estimation with Adaptive Frame Weighting and Multi-Scale Feature Fusion
- Title(参考訳): Poseidon: 適応フレーム重み付けとマルチスケール特徴融合によるマルチフレームポーズ推定のためのViTベースのアーキテクチャ
- Authors: Cesare Davide Pace, Alessandro Marco De Nunzio, Claudio De Stefano, Francesco Fontanella, Mario Molinara,
- Abstract要約: 単一フレームのポーズ推定は大きな進歩を遂げているが、複雑な連続的な動きを理解するために時間的ダイナミクスを捉えるのに失敗することが多い。
時間情報を統合することでViTPoseモデルを拡張する新しい多フレームポーズ推定アーキテクチャであるPoseidonを提案する。
提案手法は,PoseTrack21とPoseTrack18データセットの最先端性能を実現し,それぞれ88.3と87.8のmAPスコアを得た。
- 参考スコア(独自算出の注目度): 43.59385149982744
- License:
- Abstract: Human pose estimation, a vital task in computer vision, involves detecting and localising human joints in images and videos. While single-frame pose estimation has seen significant progress, it often fails to capture the temporal dynamics for understanding complex, continuous movements. We propose Poseidon, a novel multi-frame pose estimation architecture that extends the ViTPose model by integrating temporal information for enhanced accuracy and robustness to address these limitations. Poseidon introduces key innovations: (1) an Adaptive Frame Weighting (AFW) mechanism that dynamically prioritises frames based on their relevance, ensuring that the model focuses on the most informative data; (2) a Multi-Scale Feature Fusion (MSFF) module that aggregates features from different backbone layers to capture both fine-grained details and high-level semantics; and (3) a Cross-Attention module for effective information exchange between central and contextual frames, enhancing the model's temporal coherence. The proposed architecture improves performance in complex video scenarios and offers scalability and computational efficiency suitable for real-world applications. Our approach achieves state-of-the-art performance on the PoseTrack21 and PoseTrack18 datasets, achieving mAP scores of 88.3 and 87.8, respectively, outperforming existing methods.
- Abstract(参考訳): 人間のポーズ推定は、コンピュータビジョンにおいて重要なタスクであり、画像やビデオ中の人間の関節を検出し、位置決めする。
単一フレームのポーズ推定は大きな進歩を遂げているが、複雑で連続的な動きを理解するために時間的ダイナミクスを捉えるのに失敗することが多い。
本稿では,これらの制約に対処するために時間情報を統合することで,VTPoseモデルを拡張した新しい多フレームポーズ推定アーキテクチャであるPoseidonを提案する。
ポセイドンは、(1)フレームの関連性に基づいてフレームを動的に優先順位付けする適応フレーム重み付け(AFW)機構、(2)バックボーン層から特徴を集約して細部までの詳細と高レベルのセマンティクスの両方をキャプチャするマルチスケールフィーチャーフュージョン(MSFF)モジュール、(3)中央フレームと文脈フレーム間の効果的な情報交換のためのクロスアテンションモジュール、そしてモデルの時間コヒーレンスを高める。
提案アーキテクチャは複雑なビデオシナリオの性能を改善し,実世界のアプリケーションに適したスケーラビリティと計算効率を提供する。
提案手法は,PoseTrack21とPoseTrack18データセットの最先端性能を実現し,それぞれ88.3と87.8のmAPスコアを得た。
関連論文リスト
- Dynamic Reconstruction of Hand-Object Interaction with Distributed Force-aware Contact Representation [52.36691633451968]
ViTaM-Dは動的手動物体相互作用再構成のための視覚触覚フレームワークである。
DF-Fieldは分散力認識型接触表現モデルである。
剛性および変形性のある物体再構成におけるViTaM-Dの優れた性能について検討した。
論文 参考訳(メタデータ) (2024-11-14T16:29:45Z) - Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Multi-Frame Self-Supervised Depth Estimation with Multi-Scale Feature
Fusion in Dynamic Scenes [25.712707161201802]
マルチフレーム手法は単一フレームアプローチによる単眼深度推定を改善する。
最近の手法では、特徴マッチングと動的シーンのための複雑なアーキテクチャを提案する傾向がある。
単純な学習フレームワークと設計された機能拡張が、優れたパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-26T05:26:30Z) - Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文 参考訳(メタデータ) (2023-03-15T09:29:03Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z) - Enhanced 3D Human Pose Estimation from Videos by using Attention-Based
Neural Network with Dilated Convolutions [12.900524511984798]
従来のネットワークや制約の形式が、どのように注意の枠組みに組み込むことができるのかを体系的な設計で示します。
拡張畳み込みのマルチスケール構造により,時間受容場を適応させることにより,これを実現する。
提案手法は,Human3.6Mデータセット上での関節位置誤差の平均を33.4mmに減らし,最先端性能を達成し,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2021-03-04T17:26:51Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。