論文の概要: IMPose: Interactive Multi-person Pose Estimation with Dynamic Correction Propagation
- arxiv url: http://arxiv.org/abs/2606.04480v1
- Date: Wed, 03 Jun 2026 05:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.576861
- Title: IMPose: Interactive Multi-person Pose Estimation with Dynamic Correction Propagation
- Title(参考訳): IMPose:動的補正伝搬を用いた対話型多人数姿勢推定
- Authors: Haoyang Ge, Jian Ma, Ziwen Wang, Qihe Wang, Jianqi Fan, Hongzhi Yu, Xingyu Chen, Kun Li,
- Abstract要約: マルチパーソン動的ポーズアノテーションのための対話型ツールIMPoseを紹介する。
ビデオ全体のアノテータから一フレームのマルチパーソンポーズを補正するデュアルレベルトラッキング機構を備えている。
IMPoseは高精度なアノテーションを高い効率で実現し、3DPWでは1,050コマビデオにつき27クリック、PoseTrack21では84コマあたり3クリックしか必要としない。
- 参考スコア(独自算出の注目度): 31.235277993588145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality dynamic human pose annotation equips AI with precise motion kinematics to enable human behavior mastery, yet remains labor-intensive and time-consuming. Current annotation tools either lack temporal correction propagation or fail in multi-person scenarios, necessitating excessive manual intervention. In this paper, we introduce IMPose, an interactive tool for multi-person dynamic pose annotation. It features a dual-level tracking mechanism that propagates one-frame multi-person pose corrections from annotators across entire videos. The keypoint-level ensures corrections temporal propagation via sequential modeling, while the instance-level employs keypoint-aware embedding with relative positional encoding to maintain multi-person cross-frame consistency. To further improve robustness, IMPose maintains historical pose and instance cues in a trajectory bank, which enhances long-range temporal association and stabilizes annotation in challenging cases such as occlusion and motion blur. By converting sparse human corrections into dense and coherent pose trajectories, our framework significantly reduces repeated manual refinement across frames. Extensive experiments show that IMPose consistently achieves a strong accuracy efficiency trade off under different interaction budgets, demonstrating particular advantages in low click annotation settings. IMPose achieves high precision annotation with high efficiency, requiring only 27 clicks per 1,050 frame video on 3DPW and 3 clicks per tracklet per 84-frame on PoseTrack21. We further expand PoseTrack21 with 188K pose instances (3.55M keypoints) at a minimal cost of 10 annotators in 10 hours. The annotation tool, codes, and extended dataset will be open-sourced.
- Abstract(参考訳): 高品質な動的ポーズアノテーションは、人間の行動熟達を可能にするために、AIに正確な運動キネマティクスを装備するが、労働集約的で時間を要する。
現在のアノテーションツールは、時間的修正の伝播が欠けているか、複数人のシナリオで失敗し、過剰な手作業による介入を必要としている。
本稿では,多人数動的ポーズアノテーションのための対話型ツールIMPoseを紹介する。
ビデオ全体のアノテータから1フレームのマルチパーソンポーズを補正するデュアルレベルトラッキング機構を備えている。
キーポイントレベルはシーケンシャルなモデリングによる時間的伝搬の補正を保証し、インスタンスレベルは、キーポイント対応の埋め込みと相対的な位置エンコーディングを採用して、複数人のクロスフレーム一貫性を維持する。
さらにロバスト性を改善するため、IMPoseは軌道バンクにおける歴史的ポーズと事例の手がかりを維持しており、オクルージョンや動きのぼやけのような挑戦的なケースにおいて、長距離の時間的関連性を高め、アノテーションを安定化させる。
粗い人間の修正を密集したポーズトラジェクトリに変換することにより、フレーム間の繰り返し手作業の洗練を著しく削減する。
広範囲にわたる実験により、IMPoseは異なる相互作用予算の下で高い精度のトレードオフを一貫して達成し、ロークリックアノテーション設定において特に有利であることが示された。
IMPoseは高精度なアノテーションを高い効率で実現し、3DPWでは1,050コマビデオにつき27クリック、PoseTrack21では84コマあたり3クリックしか必要としない。
さらに、PoseTrack21を188Kのポーズインスタンス(3.55Mのキーポイント)で10時間で10のアノテータで拡張しています。
アノテーションツール、コード、拡張データセットがオープンソース化される。
関連論文リスト
- EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration [74.49189147054337]
本研究では,長軸アニメーション映像生成のための効率的なポストトレーニング手法であるEverAnimateを提案する。
EverAnimateは、ジェネレーションを永続的な潜在コンテキストメモリにアンカーすることで、ドリフトしたフロートラジェクトリを復元する。
ライトウェイトなLoRAチューニングだけで、EverAnimateは最先端のロングアニメーションメソッドをショート・ホライズンとロング・ホライズンの両方で上回ります。
論文 参考訳(メタデータ) (2026-05-14T16:36:34Z) - COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm [59.26203051651017]
C-TAOはOpen-Vocabulary Multi-Object Tracking (OVMOT)のための最初の連続アノテーション付きトレーニングセットである
フレームワークボトルネックに対するCOVTrack++は,3つのモジュールによる検出とアソシエーションの双方向相互機構を実現するための相乗的フレームワークである。
TAOの実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上した。
論文 参考訳(メタデータ) (2026-03-25T07:20:27Z) - End-to-End Multi-Person Pose Estimation with Pose-Aware Video Transformer [7.19764062839405]
ビデオにおける多人数2Dポーズ推定のためのエンドツーエンドフレームワークを提案する。
鍵となる課題は、複雑な時間軌道と重なり合う時間軌道の下で、個人をフレーム全体で関連付けることである。
本稿では,フレーム内関係と時間デコーダのポーズをモデル化するための空間エンコーダを備えた新しいPose-Aware VideoErEr Network(PAVE-Net)を提案する。
論文 参考訳(メタデータ) (2025-11-17T10:19:35Z) - An End-to-End Framework for Video Multi-Person Pose Estimation [3.090225730976977]
本稿では,ビデオの終末ポーズ推定のための簡易かつ柔軟なフレームワークVEPEを提案する。
提案手法は, 2段階モデルより300%, 推測より300%優れていた。
論文 参考訳(メタデータ) (2025-09-01T03:34:57Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - SpatioTemporal Learning for Human Pose Estimation in Sparsely-Labeled Videos [18.37601213802529]
STDPoseは、疎ラベルビデオの学習による人間のポーズ推定を強化する新しいフレームワークである。
STDPoseは、ビデオポーズ伝搬(ラベル付きフレームからラベル付きフレームへのポーズの伝播)とポーズ推定タスクの両方のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-01-25T04:43:12Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - Temporal Action Localization with Multi-temporal Scales [54.69057924183867]
マルチ時間スケールの特徴空間における行動を予測することを提案する。
具体的には、異なるスケールの洗練された特徴ピラミッドを使用して、高レベルのスケールから低レベルのスケールにセマンティクスを渡す。
提案手法は, それぞれ12.6%, 17.4%, 2.2%の改善を達成できる。
論文 参考訳(メタデータ) (2022-08-16T01:48:23Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。