論文の概要: Multi-view Hand Reconstruction with a Point-Embedded Transformer
- arxiv url: http://arxiv.org/abs/2408.10581v1
- Date: Tue, 20 Aug 2024 06:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:54:06.907239
- Title: Multi-view Hand Reconstruction with a Point-Embedded Transformer
- Title(参考訳): 点埋め込み変換器を用いた多視点ハンド再構成
- Authors: Lixin Yang, Licheng Zhong, Pengxiang Zhu, Xinyu Zhan, Junxiao Kong, Jian Xu, Cewu Lu,
- Abstract要約: この研究は、POEMという名前の新規で一般化可能なマルチビューハンドメッシュ再構成モデルを導入している。
POEMは実世界のハンドモーションキャプチャのシナリオで実用化するために設計されている。
- 参考スコア(独自算出の注目度): 41.39843848486915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces a novel and generalizable multi-view Hand Mesh Reconstruction (HMR) model, named POEM, designed for practical use in real-world hand motion capture scenarios. The advances of the POEM model consist of two main aspects. First, concerning the modeling of the problem, we propose embedding a static basis point within the multi-view stereo space. A point represents a natural form of 3D information and serves as an ideal medium for fusing features across different views, given its varied projections across these views. Consequently, our method harnesses a simple yet effective idea: a complex 3D hand mesh can be represented by a set of 3D basis points that 1) are embedded in the multi-view stereo, 2) carry features from the multi-view images, and 3) encompass the hand in it. The second advance lies in the training strategy. We utilize a combination of five large-scale multi-view datasets and employ randomization in the number, order, and poses of the cameras. By processing such a vast amount of data and a diverse array of camera configurations, our model demonstrates notable generalizability in the real-world applications. As a result, POEM presents a highly practical, plug-and-play solution that enables user-friendly, cost-effective multi-view motion capture for both left and right hands. The model and source codes are available at https://github.com/JubSteven/POEM-v2.
- Abstract(参考訳): 本研究は、実世界の手動キャプチャーシナリオで実用化するために設計された、新しい多視点ハンドメッシュ再構成(HMR)モデルであるPOEMを紹介する。
POEMモデルの進歩は2つの主な側面から成り立っている。
まず,この問題のモデル化について,多視点ステレオ空間内に静的な基底点を埋め込むことを提案する。
ポイントは3D情報の自然な形態を表し、様々な視点にまたがって特徴を融合させる理想的な媒体として機能する。
複雑な3Dハンドメッシュは、3Dベースポイントのセットで表現できる。
1)はマルチビューステレオに埋め込まれる。
2)多視点画像の特徴を携帯し、
3) 手の内を包含する。
第2の進歩は、トレーニング戦略にある。
5つの大規模マルチビューデータセットの組み合わせを利用して、カメラの数、順序、ポーズをランダム化する。
このような膨大なデータと多様なカメラ構成を処理することにより、我々のモデルは現実世界のアプリケーションにおいて顕著な一般化性を示す。
結果として、POEMは、ユーザフレンドリーで費用対効果の高いマルチビューモーションキャプチャーを、左右両方の手で実現する、非常に実用的なプラグアンドプレイソリューションを提供する。
モデルとソースコードはhttps://github.com/JubSteven/POEM-v2.comで入手できる。
関連論文リスト
- Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - GPAvatar: Generalizable and Precise Head Avatar from Image(s) [71.555405205039]
GPAvatarは、1つの前方パスで1つまたは複数の画像から3Dヘッドアバターを再構築するフレームワークである。
提案手法は,忠実なアイデンティティ再構築,正確な表現制御,多視点一貫性を実現する。
論文 参考訳(メタデータ) (2024-01-18T18:56:34Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - POEM: Reconstructing Hand in a Point Embedded Multi-view Stereo [36.65231692599631]
マルチビューステレオに埋め込まれた3Dポインツを動作させて手メッシュを再構築する,POEMという新しい手法を提案する。
そこで本手法は,複雑な3Dハンドメッシュを,1)多視点ステレオに埋め込まれた3Dポイントの集合で表現し,2)多視点画像から特徴を引き出す,3)手を取り囲む,という,シンプルで効果的なアイデアを念頭に置いている。
論文 参考訳(メタデータ) (2023-04-08T15:14:55Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - BANMo: Building Animatable 3D Neural Models from Many Casual Videos [135.64291166057373]
本稿では,特殊なセンサや事前定義されたテンプレート形状を必要としないBANMoを提案する。
Banmoは、多くのモノクロカジュアルビデオから高忠実な3Dモデルを、差別化可能なレンダリングフレームワークで構築する。
実際のデータセットと合成データセットでは、BANMoは人間や動物の以前の研究よりも高忠実な3D再構成を示している。
論文 参考訳(メタデータ) (2021-12-23T18:30:31Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。