論文の概要: HandOS: 3D Hand Reconstruction in One Stage
- arxiv url: http://arxiv.org/abs/2412.01537v1
- Date: Mon, 02 Dec 2024 14:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:42:33.304978
- Title: HandOS: 3D Hand Reconstruction in One Stage
- Title(参考訳): HandOS: 1段階の3Dハンドリコンストラクション
- Authors: Xingyu Chen, Zhuheng Song, Xiaoke Jiang, Yaoqing Hu, Junzhi Yu, Lei Zhang,
- Abstract要約: HandOSは3Dハンドコンストラクションのためのエンドツーエンドフレームワークである。
本稿では,対話型2D-3Dデコーダを提案する。
本研究では,手検出,2次元ポーズ推定,3次元メッシュ再構成のエンドツーエンド統合を実現する。
- 参考スコア(独自算出の注目度): 24.068163604306033
- License:
- Abstract: Existing approaches of hand reconstruction predominantly adhere to a multi-stage framework, encompassing detection, left-right classification, and pose estimation. This paradigm induces redundant computation and cumulative errors. In this work, we propose HandOS, an end-to-end framework for 3D hand reconstruction. Our central motivation lies in leveraging a frozen detector as the foundation while incorporating auxiliary modules for 2D and 3D keypoint estimation. In this manner, we integrate the pose estimation capacity into the detection framework, while at the same time obviating the necessity of using the left-right category as a prerequisite. Specifically, we propose an interactive 2D-3D decoder, where 2D joint semantics is derived from detection cues while 3D representation is lifted from those of 2D joints. Furthermore, hierarchical attention is designed to enable the concurrent modeling of 2D joints, 3D vertices, and camera translation. Consequently, we achieve an end-to-end integration of hand detection, 2D pose estimation, and 3D mesh reconstruction within a one-stage framework, so that the above multi-stage drawbacks are overcome. Meanwhile, the HandOS reaches state-of-the-art performances on public benchmarks, e.g., 5.0 PA-MPJPE on FreiHand and 64.6\% PCK@0.05 on HInt-Ego4D. Project page: idea-research.github.io/HandOSweb.
- Abstract(参考訳): 既存の手再建のアプローチは、検出、左右の分類、ポーズ推定を含む多段階の枠組みに大きく依存している。
このパラダイムは冗長計算と累積誤差を誘導する。
本研究では,3次元手指再構築のためのエンドツーエンドフレームワークであるHandOSを提案する。
我々の中心的な動機は、凍結検出器を基礎として利用し、2次元および3次元のキーポイント推定のための補助モジュールを組み込むことである。
このようにして、ポーズ推定能力を検知フレームワークに統合し、同時に、左右のカテゴリを前提条件として使う必要性を回避します。
具体的には,対話型2D-3Dデコーダを提案する。2次元関節のセマンティクスは検出キューから導出され,3次元関節の表現は2次元関節から持ち上げられる。
さらに, 2次元関節, 3次元頂点, カメラ翻訳の同時モデリングを実現するために, 階層型アテンションが設計されている。
その結果,手検出,2次元ポーズ推定,3次元メッシュ再構成のエンドツーエンド統合を実現し,上記のマルチステージの欠点を克服した。
一方、HandOSはFreiHandの5.0 PA-MPJPE、HInt-Ego4Dの64.6\% PCK@0.05といった公開ベンチマークで最先端のパフォーマンスを達成した。
プロジェクトページ: idea-research.github.io/HandOSweb
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - Neural Voting Field for Camera-Space 3D Hand Pose Estimation [106.34750803910714]
3次元暗黙表現に基づく1枚のRGB画像からカメラ空間の3Dハンドポーズ推定のための統一的なフレームワークを提案する。
本稿では,カメラフラストラムにおける高密度3次元ポイントワイド投票により,カメラ空間の3次元ハンドポーズを推定する,新しい3次元高密度回帰手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T16:51:34Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Consistent 3D Hand Reconstruction in Video via self-supervised Learning [67.55449194046996]
本稿では,モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。
検出された2次元手指キーポイントと画像テクスチャは、3次元手の形状とテクスチャに関する重要な手がかりを提供する。
自己監督型3Dハンド再構成モデルであるS2HAND$を提案する。
論文 参考訳(メタデータ) (2022-01-24T09:44:11Z) - IMENet: Joint 3D Semantic Scene Completion and 2D Semantic Segmentation
through Iterative Mutual Enhancement [12.091735711364239]
本稿では,3次元セマンティックシーン補完と2次元セマンティックセマンティックセグメンテーションを解決するために,IMENet(Iterative Mutual Enhancement Network)を提案する。
IMENetは、後期予測段階で2つのタスクをインタラクティブに洗練します。
提案手法は,3次元セマンティックシーンの完成と2次元セマンティックセマンティックセグメンテーションの両面において,最先端技術である。
論文 参考訳(メタデータ) (2021-06-29T13:34:20Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - BiHand: Recovering Hand Mesh with Multi-stage Bisected Hourglass
Networks [37.65510556305611]
本稿では,2次元シードステージ,3次元リフトステージ,メッシュ生成ステージの3段階からなる,エンドツーエンドで学習可能なモデルBiHandを紹介する。
BiHandの出力では、ネットワークから予測される関節回転と形状パラメータを用いて全手メッシュを復元する。
本モデルでは,最先端手法と比較して精度が向上し,いくつかの厳しい条件下で魅力的な3Dハンドメッシュを作成できる。
論文 参考訳(メタデータ) (2020-08-12T03:13:17Z) - HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation [7.559220068352681]
本稿では,2次元と3次元で手とオブジェクトのポーズをリアルタイムに推定するHOPE-Netという軽量モデルを提案する。
我々のネットワークは2つの適応グラフ畳み込みニューラルネットワークのカスケードを用いており、1つは手関節と物体角の2D座標を推定し、もう1つは2D座標を3Dに変換する。
論文 参考訳(メタデータ) (2020-03-31T19:01:42Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。