論文の概要: Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction
- arxiv url: http://arxiv.org/abs/2312.17106v1
- Date: Thu, 28 Dec 2023 16:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:34:49.543871
- Title: Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction
- Title(参考訳): ロバストな多視点3次元ポーズ再構成のための幾何偏差トランスフォーマー
- Authors: Olivier Moliner, Sangxia Huang and Kalle {\AA}str\"om
- Abstract要約: マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
- 参考スコア(独自算出の注目度): 3.069335774032178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenges in estimating 3D human poses from multiple views
under occlusion and with limited overlapping views. We approach multi-view,
single-person 3D human pose reconstruction as a regression problem and propose
a novel encoder-decoder Transformer architecture to estimate 3D poses from
multi-view 2D pose sequences. The encoder refines 2D skeleton joints detected
across different views and times, fusing multi-view and temporal information
through global self-attention. We enhance the encoder by incorporating a
geometry-biased attention mechanism, effectively leveraging geometric
relationships between views. Additionally, we use detection scores provided by
the 2D pose detector to further guide the encoder's attention based on the
reliability of the 2D detections. The decoder subsequently regresses the 3D
pose sequence from these refined tokens, using pre-defined queries for each
joint. To enhance the generalization of our method to unseen scenes and improve
resilience to missing joints, we implement strategies including scene
centering, synthetic views, and token dropout. We conduct extensive experiments
on three benchmark public datasets, Human3.6M, CMU Panoptic and
Occlusion-Persons. Our results demonstrate the efficacy of our approach,
particularly in occluded scenes and when few views are available, which are
traditionally challenging scenarios for triangulation-based methods.
- Abstract(参考訳): 咬合下での複数視点からの3次元人物ポーズ推定における課題を,重なり合いの少ない視点で解決する。
回帰問題として,多視点・単人物3次元ポーズ再構成にアプローチし,多視点2次元ポーズシーケンスから3次元ポーズを推定する新しいエンコーダ・デコーダトランスフォーマアーキテクチャを提案する。
エンコーダは、異なるビューや時間にわたって検出された2D骨格関節を洗練し、グローバルな自己注意を通じて多視点および時間情報を融合する。
本稿では,映像間の幾何学的関係を効果的に活用し,幾何バイアスの注意機構を組み込むことによりエンコーダを強化する。
さらに,2次元ポーズ検出器によって提供される検出スコアを用いて,2次元検出の信頼性に基づいて,エンコーダの注意をさらに誘導する。
デコーダはその後、これらの洗練されたトークンから3Dポーズシーケンスを回帰し、各ジョイントに対する事前定義されたクエリを使用する。
そこで我々は,シーンセンタリング,合成ビュー,トークンドロップアウトなどの手法を実装した。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットについて広範な実験を行った。
以上より,従来の三角測量法では難解なシナリオであるオクルードシーン,特にビュー数が少ない場面において,我々のアプローチの有効性を示す。
関連論文リスト
- GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - Unsupervised 3D Keypoint Discovery with Multi-View Geometry [104.76006413355485]
本研究では,多視点画像から人体上の3Dキーポイントを,監督やラベルなしで発見するアルゴリズムを提案する。
我々の手法は、他の最先端の教師なしアプローチと比較して、より解釈可能で正確な3Dキーポイントを発見する。
論文 参考訳(メタデータ) (2022-11-23T10:25:12Z) - IVT: An End-to-End Instance-guided Video Transformer for 3D Pose
Estimation [6.270047084514142]
ビデオ3D人間のポーズ推定は、ビデオから人間の関節の3D座標をローカライズすることを目的としている。
IVTは、視覚的特徴から時間的文脈深度情報とビデオフレームから直接3Dポーズを学習することを可能にする。
3つの広く使われている3次元ポーズ推定ベンチマークの実験により、提案したIVTが最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-06T02:36:33Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - Real-Time Multi-View 3D Human Pose Estimation using Semantic Feedback to
Smart Edge Sensors [28.502280038100167]
各カメラビューに対する2次元関節検出は、専用の埋め込み推論プロセッサ上で局所的に行われる。
3次元ポーズは、三角法と体モデルに基づいて、中央のバックエンドにある2次元関節から回収される。
パイプライン全体がリアルタイム操作が可能なのです。
論文 参考訳(メタデータ) (2021-06-28T14:00:00Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。