論文の概要: CLIFF: Carrying Location Information in Full Frames into Human Pose and
Shape Estimation
- arxiv url: http://arxiv.org/abs/2208.00571v1
- Date: Mon, 1 Aug 2022 02:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:52:12.753403
- Title: CLIFF: Carrying Location Information in Full Frames into Human Pose and
Shape Estimation
- Title(参考訳): CLIFF: フルフレームの位置情報を人文空間に搬送し, 形状推定
- Authors: Zhihao Li, Jianzhuang Liu, Zhensong Zhang, Songcen Xu, and Youliang
Yan
- Abstract要約: トップダウン法は、人間の検出から切り離されるため、人間の3次元ポーズと形状推定の分野を支配している。
この問題に対処するため,本課題にフルフレーム(CLIFF)におけるキャリー位置情報を提案する。
具体的には、収穫された画像と、そのバウンディングボックス情報とを連結することにより、より包括的な機能をCLIFFに提供します。
画像に投影された人物のものと類似した投影過程を採り、フルフレームの広い視野で2次元再投影損失を算出する。
- 参考スコア(独自算出の注目度): 38.70832915037739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Top-down methods dominate the field of 3D human pose and shape estimation,
because they are decoupled from human detection and allow researchers to focus
on the core problem. However, cropping, their first step, discards the location
information from the very beginning, which makes themselves unable to
accurately predict the global rotation in the original camera coordinate
system. To address this problem, we propose to Carry Location Information in
Full Frames (CLIFF) into this task. Specifically, we feed more holistic
features to CLIFF by concatenating the cropped-image feature with its bounding
box information. We calculate the 2D reprojection loss with a broader view of
the full frame, taking a projection process similar to that of the person
projected in the image. Fed and supervised by global-location-aware
information, CLIFF directly predicts the global rotation along with more
accurate articulated poses. Besides, we propose a pseudo-ground-truth annotator
based on CLIFF, which provides high-quality 3D annotations for in-the-wild 2D
datasets and offers crucial full supervision for regression-based methods.
Extensive experiments on popular benchmarks show that CLIFF outperforms prior
arts by a significant margin, and reaches the first place on the AGORA
leaderboard (the SMPL-Algorithms track). The code and data are available at
https://github.com/huawei-noah/noah-research/tree/master/CLIFF.
- Abstract(参考訳): トップダウン法は、人間検出から切り離され、研究者が核となる問題に集中できるため、3d人間のポーズと形状推定の分野を支配している。
しかし、最初のステップである収穫は、位置情報を最初から取り除き、元のカメラ座標系におけるグローバルな回転を正確に予測することができない。
この問題に対処するため,本課題にフルフレーム(CLIFF)におけるキャリー位置情報を提案する。
具体的には、収穫された画像と、そのバウンディングボックス情報とを連結することにより、より包括的な機能をCLIFFに提供します。
画像に投影された人物のものと類似した投影過程を採り、フルフレームの広い視野で2次元再投影損失を算出する。
FedとCLIFFは、グローバルロケーション対応の情報に基づいて、より正確なポーズとともに、グローバルローテーションを直接予測する。
さらに,in-the-wild 2dデータセットに対して高品質な3dアノテーションを提供し,回帰に基づくメソッドに対して重要な完全な監視を提供するcliffに基づく擬似接地アノテーションを提案する。
人気のあるベンチマークに関する大規模な実験は、CLIFFが先行技術よりかなり優れており、AGORAのリーダーボード(SMPL-Algorithmsのトラック)で1位に達していることを示している。
コードとデータはhttps://github.com/huawei-noah/noah-research/tree/master/cliffで入手できる。
関連論文リスト
- Unleashing the Power of Data Synthesis in Visual Localization [17.159091187694884]
クェリ画像からカメラがポーズする手法は高速な推論のために注目されている。
我々は、ポーズ回帰の一般化を促進するために、データ合成の力を解き放つことを目的としている。
両腕共同訓練パイプラインを構築し, 対角分離器を用いて, 合成と現実のギャップを埋める。
論文 参考訳(メタデータ) (2024-11-28T16:58:10Z) - CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Lifting by Image -- Leveraging Image Cues for Accurate 3D Human Pose
Estimation [10.374944534302234]
2次元ポーズからのリフト」法が3Dヒューマンポーズ推定の主流となっている(3DHPE)
画像中のリッチな意味とテクスチャ情報は、より正確な「リフト」手順に寄与する。
本稿では, 一般化問題の原因と画像特徴の有効性について, 新たな知見を与える。
論文 参考訳(メタデータ) (2023-12-25T07:50:58Z) - RADU: Ray-Aligned Depth Update Convolutions for ToF Data Denoising [8.142947808507369]
マルチパス干渉(MPI)による高レベルのノイズ・歪みを受ける飛行時間(ToF)カメラ
本稿では,3次元点の畳み込みにより視点方向に沿った点の位置を補正し,2.5次元データから学習するように設計した,3次元空間で動作する反復的 denoising アプローチを提案する。
本稿では,2つの実世界データセットと大規模合成データセットを含む,複数のデータセット上でSOTA法より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-30T15:53:28Z) - Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views [70.1586005070678]
本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
論文 参考訳(メタデータ) (2021-09-16T13:01:13Z) - Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。
提案手法は2つの公開データセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-07-29T14:12:19Z) - Beyond Weak Perspective for Monocular 3D Human Pose Estimation [6.883305568568084]
単眼映像からの3次元関節位置と方向予測の課題を考察する。
まず,市販のポーズ推定アルゴリズムを用いて2次元関節位置を推定する。
次に、初期パラメータを受信するSMPLifyアルゴリズムに準拠する。
論文 参考訳(メタデータ) (2020-09-14T16:23:14Z) - HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization [83.57863764231655]
本稿では,根の絶対的局所化のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。
関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。
我々は,2つのベンチマークデータセットを用いて,ルートジョイントローカライゼーションとルート相対的な3次元ポーズ推定タスクについて,HDNetの評価を行った。
論文 参考訳(メタデータ) (2020-07-17T12:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。