論文の概要: Global-correlated 3D-decoupling Transformer for Clothed Avatar
Reconstruction
- arxiv url: http://arxiv.org/abs/2309.13524v2
- Date: Tue, 26 Sep 2023 13:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 10:43:19.318546
- Title: Global-correlated 3D-decoupling Transformer for Clothed Avatar
Reconstruction
- Title(参考訳): 皮下アバター再建のためのグローバル関連3dデカップリングトランス
- Authors: Zechuan Zhang, Li Sun, Zongxin Yang, Ling Chen, Yi Yang
- Abstract要約: 本稿では,モノクロ画像から衣料アバターを再構成するトランスフォーマーをGTA(Global-correlated 3D-decoupling Transformer for Avatar reconstruction)として提案する。
提案手法は,グローバルな関連画像特徴をキャプチャするエンコーダとしてビジョントランスフォーマーモデルを活用することで,トランスフォーマアーキテクチャを活用する。
提案手法は形状とテクスチャ再構築の両面において最先端の手法より優れており,挑戦的なポーズやゆるい衣服に対して高い堅牢性を示す。
- 参考スコア(独自算出の注目度): 39.562900308052846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D clothed human avatars from single images is a challenging
task, especially when encountering complex poses and loose clothing. Current
methods exhibit limitations in performance, largely attributable to their
dependence on insufficient 2D image features and inconsistent query methods.
Owing to this, we present the Global-correlated 3D-decoupling Transformer for
clothed Avatar reconstruction (GTA), a novel transformer-based architecture
that reconstructs clothed human avatars from monocular images. Our approach
leverages transformer architectures by utilizing a Vision Transformer model as
an encoder for capturing global-correlated image features. Subsequently, our
innovative 3D-decoupling decoder employs cross-attention to decouple tri-plane
features, using learnable embeddings as queries for cross-plane generation. To
effectively enhance feature fusion with the tri-plane 3D feature and human body
prior, we propose a hybrid prior fusion strategy combining spatial and
prior-enhanced queries, leveraging the benefits of spatial localization and
human body prior knowledge. Comprehensive experiments on CAPE and THuman2.0
datasets illustrate that our method outperforms state-of-the-art approaches in
both geometry and texture reconstruction, exhibiting high robustness to
challenging poses and loose clothing, and producing higher-resolution textures.
Codes will be available at https://github.com/River-Zhang/GTA.
- Abstract(参考訳): 3d服を着た人間のアバターを1枚の画像から再構築することは、特に複雑なポーズやゆるい衣服に遭遇する場合、難しい課題である。
現在のメソッドは性能に制限があり、主に不十分な2d画像特徴と一貫性のないクエリメソッドに依存する。
そこで我々は, モノクロ画像から人間のアバターを再構成する新しいトランスアーキテクチャであるGTA(Global-correlated 3D-decoupling Transformer for clothed Avatar reconstruction)を提案する。
提案手法は,グローバルな関連画像特徴をキャプチャするエンコーダとしてビジョントランスフォーマーモデルを活用することで,トランスフォーマアーキテクチャを活用する。
その後,3次元分離デコーダは,学習可能な埋め込みをクロスプレーン生成のためのクエリとして使用し,トライプレーン機能を分離するためにクロスアテンションを用いています。
本稿では,三面体3次元特徴と人体との融合を効果的に促進するために,空間的局所化と人体的事前知識の利点を活かし,空間的問合せと先行的問合せを組み合わせたハイブリッド事前融合戦略を提案する。
CAPEとTHuman2.0データセットの総合的な実験により、我々の手法は、幾何学的およびテクスチャ的再構築における最先端のアプローチよりも優れており、挑戦的なポーズやゆるい衣服に対して高い堅牢性を示し、高分解能なテクスチャを生成する。
コードはhttps://github.com/River-Zhang/GTAで入手できる。
関連論文リスト
- 3D-Consistent Human Avatars with Sparse Inputs via Gaussian Splatting and Contrastive Learning [19.763523500564542]
CHASEはスパース入力のみを使用して高密度なインプットレベルのパフォーマンスを実現する新しいフレームワークである。
トレーニングセットからの類似のポーズを活用することにより,変形したガウスを洗練する動的アバター調整(DAA)モジュールを導入する。
スパース入力用に設計されているが、CHASEはZJU-MoCapとH36Mデータセットのフル設定とスパース設定の両方で最先端のメソッドを超越している。
論文 参考訳(メタデータ) (2024-08-19T02:46:23Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars [40.10906393484584]
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークを提案する。
本アーキテクチャでは,画素対応画像-画像変換を重要視し,観測空間と標準空間の対応を学習する必要性を緩和する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-12-03T18:59:15Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - SHERF: Generalizable Human NeRF from a Single Image [59.10589479808622]
SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:59:12Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。