論文の概要: Disambiguating Monocular Reconstruction of 3D Clothed Human with Spatial-Temporal Transformer
- arxiv url: http://arxiv.org/abs/2410.16337v1
- Date: Mon, 21 Oct 2024 02:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:00.004041
- Title: Disambiguating Monocular Reconstruction of 3D Clothed Human with Spatial-Temporal Transformer
- Title(参考訳): 時空間変圧器を用いた3次元衣服の特異な単眼再建
- Authors: Yong Deng, Baoxing Li, Xu Zhao,
- Abstract要約: そこで我々は,3次元布地復元のための空間-時間変換器ネットワークを提案する。
空間変換器を用いて、正規地図予測のためのグローバル情報を抽出する。
時間的特徴の組み入れにより、暗黙のネットワークにおける入力特徴の精度が向上する。
- 参考スコア(独自算出の注目度): 22.940662039794603
- License:
- Abstract: Reconstructing 3D clothed humans from monocular camera data is highly challenging due to viewpoint limitations and image ambiguity. While implicit function-based approaches, combined with prior knowledge from parametric models, have made significant progress, there are still two notable problems. Firstly, the back details of human models are ambiguous due to viewpoint invisibility. The quality of the back details depends on the back normal map predicted by a convolutional neural network (CNN). However, the CNN lacks global information awareness for comprehending the back texture, resulting in excessively smooth back details. Secondly, a single image suffers from local ambiguity due to lighting conditions and body movement. However, implicit functions are highly sensitive to pixel variations in ambiguous regions. To address these ambiguities, we propose the Spatial-Temporal Transformer (STT) network for 3D clothed human reconstruction. A spatial transformer is employed to extract global information for normal map prediction. The establishment of global correlations facilitates the network in comprehending the holistic texture and shape of the human body. Simultaneously, to compensate for local ambiguity in images, a temporal transformer is utilized to extract temporal features from adjacent frames. The incorporation of temporal features can enhance the accuracy of input features in implicit networks. Furthermore, to obtain more accurate temporal features, joint tokens are employed to establish local correspondences between frames. Experimental results on the Adobe and MonoPerfCap datasets have shown that our method outperforms state-of-the-art methods and maintains robust generalization even under low-light outdoor conditions.
- Abstract(参考訳): モノクロカメラデータから3D服の人間を再構築することは、視点制限と画像のあいまいさのために非常に困難である。
暗黙的な関数ベースのアプローチとパラメトリックモデルからの事前の知識が組み合わさって大きな進歩を遂げたが、まだ2つの大きな問題がある。
第一に、人間のモデルの背後の細部は、視認性のために曖昧である。
バックディテールの品質は、畳み込みニューラルネットワーク(CNN)によって予測されるバックノーマルマップに依存する。
しかし、CNNはバックテクスチャの理解にグローバルな情報認識を欠いているため、非常にスムーズなバックディテールをもたらす。
第二に、1枚の画像は照明条件や体の動きによって局所的な曖昧さに悩まされる。
しかし、暗黙の関数は曖昧な領域の画素変動に非常に敏感である。
これらのあいまいさに対処するために,3次元の衣服再構築のための空間時間変換器(STT)ネットワークを提案する。
空間変換器を用いて、正規地図予測のためのグローバル情報を抽出する。
グローバルな相関の確立は、人体の全体的テクスチャと形状を理解する上で、ネットワークを促進する。
同時に、画像の局所的曖昧さを補うために、隣接フレームから時間的特徴を抽出するために時間的変換器を用いる。
時間的特徴を組み込むことで、暗黙のネットワークにおける入力特徴の精度を高めることができる。
さらに、より正確な時間的特徴を得るために、フレーム間の局所的な対応を確立するためにジョイントトークンが使用される。
Adobe と MonoPerfCap のデータセットによる実験結果から,本手法は最先端の手法より優れ,低照度屋外条件下においてもロバストな一般化を維持していることがわかった。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - Temporal-Aware Refinement for Video-based Human Pose and Shape Recovery [20.566505924677013]
本研究では,時間認識のグローバルな特徴と局所的な特徴を探索し,正確なポーズと形状回復を実現するための時間認識精細ネットワーク(TAR)を提案する。
我々のTARは,3DPW,MPI-INF-3DHP,Human3.6Mといった,従来の最先端手法よりも正確な結果が得られる。
論文 参考訳(メタデータ) (2023-11-16T03:35:17Z) - 3D shape reconstruction of semi-transparent worms [0.950214811819847]
3D形状の再構成は通常、被写体の複数の画像に物体の特徴やテクスチャを特定する必要がある。
ここでは、画像と比較するために、適応的ぼかしと透明度で候補形状を描画することで、これらの課題を克服する。
本研究は,線虫類の細いカエノルハブディティ・エレガンスを,生物学的にインフォームドされた制約や規則化を自然に許容する内在的パラメトリションを用いて3次元曲線としてモデル化する。
論文 参考訳(メタデータ) (2023-04-28T13:29:36Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Capturing the motion of every joint: 3D human pose and shape estimation
with independent tokens [34.50928515515274]
モノクロ映像から3次元人物のポーズと形状を推定する新しい手法を提案する。
提案手法は,3DPWおよびHuman3.6Mデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-01T07:48:01Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。