論文の概要: STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans
- arxiv url: http://arxiv.org/abs/2503.13344v2
- Date: Thu, 20 Mar 2025 10:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 12:14:54.600293
- Title: STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans
- Title(参考訳): STEP:動物と人間の同時追跡とポス推定
- Authors: Shashikant Verma, Harish Katti, Soumyaratna Debnath, Yamuna Swamy, Shanmuganathan Raman,
- Abstract要約: 本稿では,トランスフォーマーに基づく識別予測モデルを用いて,多様な動物種と人間のポーズの同時追跡と推定を行う新しいフレームワークSTEPを紹介する。
当社のアプローチでは,トラッキング機能のため,フレーム単位のターゲット検出には依存していません。
実験では,既存手法と比較して優れた結果が得られ,様々な応用への扉が開けられた。
- 参考スコア(独自算出の注目度): 14.144097766150395
- License:
- Abstract: We introduce STEP, a novel framework utilizing Transformer-based discriminative model prediction for simultaneous tracking and estimation of pose across diverse animal species and humans. We are inspired by the fact that the human brain exploits spatiotemporal continuity and performs concurrent localization and pose estimation despite the specialization of brain areas for form and motion processing. Traditional discriminative models typically require predefined target states for determining model weights, a challenge we address through Gaussian Map Soft Prediction (GMSP) and Offset Map Regression Adapter (OMRA) Modules. These modules remove the necessity of keypoint target states as input, streamlining the process. Our method starts with a known target state in the initial frame of a given video sequence. It then seamlessly tracks the target and estimates keypoints of anatomical importance as output for subsequent frames. Unlike prevalent top-down pose estimation methods, our approach doesn't rely on per-frame target detections due to its tracking capability. This facilitates a significant advancement in inference efficiency and potential applications. We train and validate our approach on datasets encompassing diverse species. Our experiments demonstrate superior results compared to existing methods, opening doors to various applications, including but not limited to action recognition and behavioral analysis.
- Abstract(参考訳): 本稿では,トランスフォーマーに基づく識別モデル予測を用いた新しいフレームワークSTEPを紹介し,多様な動物種とヒトのポーズの同時追跡と推定を行う。
我々は,脳が時空間連続性を利用して,脳領域の特殊化や運動処理に拘わらず,同時的な局所化とポーズ推定を行うという事実に着想を得た。
従来の識別モデルは、モデルウェイトを決定するために定義済みの目標状態を必要とするが、これはガウスマップソフト予測(GMSP)とオフセットマップ回帰適応器(OMRA)モジュールを通して解決する課題である。
これらのモジュールは、入力としてキーポイントターゲット状態の必要性を排除し、プロセスを合理化します。
提案手法は、所定のビデオシーケンスの初期フレームにおいて、既知のターゲット状態から開始する。
その後、ターゲットをシームレスに追跡し、その後のフレームの出力として解剖学的重要性のキーポイントを推定する。
一般的なトップダウンポーズ推定手法とは異なり、我々の手法はトラッキング機能のため、フレーム単位のターゲット検出に依存しない。
これにより推論効率と潜在的な応用が大幅に向上する。
多様な種を含むデータセットに対して、我々のアプローチを訓練し、検証します。
本実験は, 動作認識や行動解析に限らず, 様々な応用への扉を開いている既存手法と比較して, 優れた結果を示すものである。
関連論文リスト
- Uncovering the human motion pattern: Pattern Memory-based Diffusion
Model for Trajectory Prediction [45.77348842004666]
動作パターン優先記憶ネットワーク(Motion Pattern Priors Memory Network)は、人間の行動に潜む動きパターンを明らかにするためのメモリベースの手法である。
メモリバンクから各予測に対して一致したパターンと潜在的なターゲット分布を検索するアドレッシング機構を導入する。
提案手法の有効性を検証し,最先端の軌道予測精度を実現する。
論文 参考訳(メタデータ) (2024-01-05T17:39:52Z) - STGlow: A Flow-based Generative Framework with Dual Graphormer for
Pedestrian Trajectory Prediction [22.553356096143734]
歩行者軌跡予測(STGlow)のための二重グラフマーを用いた新しい生成フローベースフレームワークを提案する。
本手法は,動作の正確なログライクな振る舞いを最適化することにより,基礎となるデータ分布をより正確にモデル化することができる。
いくつかのベンチマークによる実験結果から,本手法は従来の最先端手法に比べて性能が向上することが示された。
論文 参考訳(メタデータ) (2022-11-21T07:29:24Z) - Koopman pose predictions for temporally consistent human walking
estimations [11.016730029019522]
そこで我々は,下肢運動の非線形ダイナミクスを組み込んだクープマン理論に基づく新しい因子グラフ因子を提案する。
以上の結果から,本手法は骨格形状の外れ率を約1m削減し,自然歩行軌跡を最大10m以上保存できることが示唆された。
論文 参考訳(メタデータ) (2022-05-05T16:16:06Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - TraND: Transferable Neighborhood Discovery for Unsupervised Cross-domain
Gait Recognition [77.77786072373942]
本稿では、教師なしクロスドメイン歩行認識のための領域ギャップを橋渡しするTransferable Neighborhood Discovery (TraND) フレームワークを提案する。
我々は、潜在空間におけるラベルなしサンプルの自信ある近傍を自動的に発見するために、エンドツーエンドのトレーニング可能なアプローチを設計する。
提案手法は,CASIA-BとOU-LPの2つの公開データセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-02-09T03:07:07Z) - Motion Prediction Using Temporal Inception Module [96.76721173517895]
人間の動作を符号化するTIM(Temporal Inception Module)を提案する。
本フレームワークは,異なる入力長に対して異なるカーネルサイズを用いて,畳み込み層を用いて入力埋め込みを生成する。
標準的な動き予測ベンチマークデータセットであるHuman3.6MとCMUのモーションキャプチャデータセットの実験結果から,我々の手法は一貫して技術手法の状態を上回ります。
論文 参考訳(メタデータ) (2020-10-06T20:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。