論文の概要: L2A: Learning to Accumulate Pose History for Accurate 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2605.08806v2
- Date: Tue, 12 May 2026 04:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.934012
- Title: L2A: Learning to Accumulate Pose History for Accurate 3D Human Pose Estimation
- Title(参考訳): L2A:正確な3次元姿勢推定のための姿勢履歴の蓄積学習
- Authors: Zehua Wang, Changwang Mei, Huaijiang Sun, Pengqi Hu, Zhaoyang Yin,
- Abstract要約: 既存の2D-3Dリフトヒトポーズ推定法は高い性能を達成している。
しかし,ネットワーク深度にまたがる歴史的ポーズ表現の利用は見過ごされた。
ネットワーク間履歴の特徴を効果的に活用するための履歴認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.020290085816583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing 2D-3D lifting human pose estimation methods have achieved strong performance. But the utilization of historical pose representations across network depth was overlooked. In current pipelines, information is propagated through fixed residual connections, which restricts effective reuse of early-layer features such as fine-grained spatial structures and short-term motion cues. However, naively incorporating historical features across layers is non-trivial. We further identify that maintaining a consistent representation space across layers is a prerequisite for effective cross-layer feature aggregation. To address this issue, we propose a history-aware framework that enables effective network cross-layer history feature utilization. Specifically, we adopt a spatial-temporal parallel Transformer backbone to prevent alternating spatial-temporal transformations during sequential processing, thereby maintaining a consistent representation space. Building upon this, we introduce a History Pose Accumulation (HPA) mechanism that adaptively aggregates features from all preceding layers to enhance current representations. Furthermore, we propose a Layer Pose History Aggregation (LPA) module that transforms layer pose features into a compact and structured form, reducing redundancy and enabling more stable aggregation. Extensive experiments demonstrate that our approach achieves state-of-the-art performance on benchmarks.
- Abstract(参考訳): 既存の2D-3Dリフトヒトポーズ推定法は高い性能を達成している。
しかし,ネットワーク深度にまたがる歴史的ポーズ表現の利用は見過ごされた。
現在のパイプラインでは、情報は固定された残差接続によって伝播され、細粒度空間構造や短期動作キューのような初期層の特徴の効果的な再利用が制限される。
しかし、階層にまたがる歴史的特徴を内在的に組み込むことは簡単ではない。
さらに,レイヤ間の一貫した表現空間を維持することが,効果的な層間特徴集約の前提条件であることも確認した。
この問題に対処するために,ネットワーク間履歴の特徴を効果的に活用する履歴認識フレームワークを提案する。
具体的には、逐次処理中の時空間変換を防止するために、時空間変換器のバックボーンを採用し、一貫した表現空間を維持する。
これに基づいて、過去のすべてのレイヤの特徴を適応的に集約し、現在の表現を強化するヒストリー・ポーズ累積(HPA)機構を導入する。
さらに,レイヤポーズ特徴をコンパクトかつ構造化された形式に変換し,冗長性を低減し,より安定したアグリゲーションを可能にするレイヤポーズヒストリーアグリゲーション(LPA)モジュールを提案する。
大規模な実験により,本手法がベンチマーク上での最先端性能を実現することが示された。
関連論文リスト
- Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction [50.5449251266956]
本稿では,長い映像シーケンスから大規模3Dシーンを再構築する作業について述べる。
近年のフィードフォワード再構成モデルでは,RGB画像からの3次元幾何を,明示的な3次元先行や幾何学的制約なく直接回帰することで,有望な結果を示している。
本稿では,長距離シーン情報を効率よく圧縮し,保持するニューラルグローバルコンテキスト表現を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:50Z) - Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。
既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文 参考訳(メタデータ) (2026-03-04T11:38:12Z) - OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution [34.8105632078785]
フィードフォワードフレームワークであるOnlineXを導入し、ストリーミング画像のみを用いて3次元の視覚的外観と言語フィールドをオンライン的に再構築する。
我々のフレームワークは、メモリ状態を専用のアクティブな状態と永続的な安定な状態に分離し、その後、前者からの情報を結合して後者に融合させ、忠実性と安定性の両方を達成する。
論文 参考訳(メタデータ) (2026-03-02T17:52:02Z) - PRGCN: A Graph Memory Network for Cross-Sequence Pattern Reuse in 3D Human Pose Estimation [18.771349697842947]
本稿では、パターン検索と適応の問題としてポーズ推定を形式化する新しいフレームワークであるパターン再利用グラフ変換ネットワーク(PRGCN)を紹介する。
PRGCNのコアとなるグラフメモリバンクは、リレーショナルグラフとして符号化された一連のコンパクトなポーズプロトタイプを学習し、格納する。
PRGCNは,それぞれ37.1mm,13.4mmのMPJPEを達成し,クロスドメインの一般化能力の向上を図っている。
論文 参考訳(メタデータ) (2025-10-22T11:12:07Z) - StarPose: 3D Human Pose Estimation via Spatial-Temporal Autoregressive Diffusion [29.682018018059043]
StarPoseは3次元人間のポーズ推定のための自己回帰拡散フレームワークである。
歴史的3Dポーズの予測と空間的物理的ガイダンスが組み込まれている。
人間の3次元ポーズ推定における精度と時間的一貫性を向上する。
論文 参考訳(メタデータ) (2025-08-04T04:50:05Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。