論文の概要: AG-EgoPose: Leveraging Action-Guided Motion and Kinematic Joint Encoding for Egocentric 3D Pose Estimation
- arxiv url: http://arxiv.org/abs/2603.25175v1
- Date: Thu, 26 Mar 2026 08:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.189559
- Title: AG-EgoPose: Leveraging Action-Guided Motion and Kinematic Joint Encoding for Egocentric 3D Pose Estimation
- Title(参考訳): AG-EgoPose: Egocentric 3D Pose Estimationのためのアクションガイド運動と運動学的関節符号化
- Authors: Md Mushfiqur Azam, John Quarles, Kevin Desai,
- Abstract要約: AG-EgoPoseは、短距離と長距離の動作コンテキストときめ細かい空間的手がかりを統合して、ロバストなポーズ推定を行う新しいデュアルストリームフレームワークである。
空間ストリームは、重量共有型ResNet-18エンコーダデコーダを用いて、2次元ジョイントヒートマップを生成する。
時間ストリームはResNet-50バックボーンを使用して視覚的特徴を抽出し、アクション認識バックボーンによって処理され、モーションダイナミクスをキャプチャする。
- 参考スコア(独自算出の注目度): 11.399976049695212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric 3D human pose estimation remains challenging due to severe perspective distortion, limited body visibility, and complex camera motion inherent in first-person viewpoints. Existing methods typically rely on single-frame analysis or limited temporal fusion, which fails to effectively leverage the rich motion context available in egocentric videos. We introduce AG-EgoPose, a novel dual-stream framework that integrates short- and long-range motion context with fine-grained spatial cues for robust pose estimation from fisheye camera input. Our framework features two parallel streams: A spatial stream uses a weight-sharing ResNet-18 encoder-decoder to generate 2D joint heatmaps and corresponding joint-specific spatial feature tokens. Simultaneously, a temporal stream uses a ResNet-50 backbone to extract visual features, which are then processed by an action recognition backbone to capture the motion dynamics. These complementary representations are fused and refined in a transformer decoder with learnable joint tokens, which allows for the joint-level integration of spatial and temporal evidence while maintaining anatomical constraints. Experiments on real-world datasets demonstrate that AG-EgoPose achieves state-of-the-art performance in both quantitative and qualitative metrics. Code is available at: https://github.com/Mushfiq5647/AG-EgoPose.
- Abstract(参考訳): エゴセントリックな3次元ポーズ推定は、重度の視点歪み、身体の視認性に制限があり、一対一の視点に固有の複雑なカメラの動きのため、依然として困難である。
既存の手法は通常、単フレーム分析や限定時間融合に依存しており、エゴセントリックなビデオで利用可能なリッチな動きコンテキストを効果的に活用できない。
我々は,魚眼カメラ入力から頑健なポーズ推定を行うために,近距離と遠距離の動作コンテキストをきめ細かな空間的手がかりと統合した新しいデュアルストリームフレームワーク AG-EgoPoseを紹介した。
空間ストリームは、重量共有型ResNet-18エンコーダデコーダを使用して、2次元のジョイントヒートマップとそれに対応する関節特化空間特徴トークンを生成する。
同時に、時間ストリームはResNet-50バックボーンを使用して視覚的特徴を抽出し、アクション認識バックボーンによって処理され、モーションダイナミクスをキャプチャする。
これらの相補的な表現は、学習可能なジョイントトークンを持つトランスフォーマーデコーダで融合して洗練され、解剖学的制約を維持しながら、空間的および時間的証拠を共同レベルで統合することができる。
実世界のデータセットの実験では、AG-EgoPoseは定量と定性の両方で最先端のパフォーマンスを達成している。
コードは、https://github.com/Mushfiq5647/AG-EgoPoseで入手できる。
関連論文リスト
- Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints [87.13154261503168]
モーションコントロール可能なビデオ生成は、仮想現実と組み込みAIにおけるエゴセントリックなアプリケーションに不可欠である。
既存の手法は、しばしば3D一貫性のきめ細かい手話を実現するのに苦労する。
単一の参照フレームからエゴセントリックなビデオを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-12T10:02:23Z) - DragMesh: Interactive 3D Generation Made Easy [12.832539752284466]
DragMeshはリアルタイムインタラクティブな3Dコーディネーションのための堅牢なフレームワークである。
私たちのコアコントリビューションは、新しい分離されたキネマティック推論とモーションジェネレーションフレームワークです。
論文 参考訳(メタデータ) (2025-12-06T13:10:44Z) - EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization [17.622013322533423]
EVA02-ATは、エゴセントリックなビデオ理解タスクに適した、EVA02ベースのビデオ言語基盤モデルのスイートである。
EVA02-ATは、画像ベースのCLIPモデルをシングルステージプレトレーニングを介して、統一ビデオエンコーダに効率的に転送する。
我々は,Symmetric Multi-Similarity(SMS)損失と,正と負のペアに対してすべてのソフトラベルを前進させる新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2025-06-17T09:51:51Z) - POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction [53.19968902152528]
POMATOは時間運動と一致する点マップを結合して動的3次元再構成を実現するための統合フレームワークである。
具体的には,RGB画素を動的および静的の両方の領域から3次元ポイントマップにマッピングすることで,明示的なマッチング関係を学習する。
本稿では,複数の下流タスクにまたがる顕著な性能を示すことによって,提案したポイントマップマッチングと時間融合のパラダイムの有効性を示す。
論文 参考訳(メタデータ) (2025-04-08T05:33:13Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T18:04:13Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。