論文の概要: PuzzleAvatar: Assembling 3D Avatars from Personal Albums
- arxiv url: http://arxiv.org/abs/2405.14869v1
- Date: Thu, 23 May 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:17:34.771383
- Title: PuzzleAvatar: Assembling 3D Avatars from Personal Albums
- Title(参考訳): PuzzleAvatar:個人アルバムから3Dアバターを組み立てる
- Authors: Yuliang Xiu, Yufei Ye, Zhen Liu, Dimitrios Tzionas, Michael J. Black,
- Abstract要約: 我々は,OOTDアルバムから忠実な3Dアバターを生成する新しいモデルであるPuzzleAvatarを開発した。
学習したトークンを“パズルピース”として利用して,忠実でパーソナライズされた3Dアバターを組み立てます。
- 参考スコア(独自算出の注目度): 54.831084076478874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating personalized 3D avatars is crucial for AR/VR. However, recent text-to-3D methods that generate avatars for celebrities or fictional characters, struggle with everyday people. Methods for faithful reconstruction typically require full-body images in controlled settings. What if a user could just upload their personal "OOTD" (Outfit Of The Day) photo collection and get a faithful avatar in return? The challenge is that such casual photo collections contain diverse poses, challenging viewpoints, cropped views, and occlusion (albeit with a consistent outfit, accessories and hairstyle). We address this novel "Album2Human" task by developing PuzzleAvatar, a novel model that generates a faithful 3D avatar (in a canonical pose) from a personal OOTD album, while bypassing the challenging estimation of body and camera pose. To this end, we fine-tune a foundational vision-language model (VLM) on such photos, encoding the appearance, identity, garments, hairstyles, and accessories of a person into (separate) learned tokens and instilling these cues into the VLM. In effect, we exploit the learned tokens as "puzzle pieces" from which we assemble a faithful, personalized 3D avatar. Importantly, we can customize avatars by simply inter-changing tokens. As a benchmark for this new task, we collect a new dataset, called PuzzleIOI, with 41 subjects in a total of nearly 1K OOTD configurations, in challenging partial photos with paired ground-truth 3D bodies. Evaluation shows that PuzzleAvatar not only has high reconstruction accuracy, outperforming TeCH and MVDreamBooth, but also a unique scalability to album photos, and strong robustness. Our model and data will be public.
- Abstract(参考訳): パーソナライズされた3Dアバターの生成は、AR/VRにとって不可欠である。
しかし、近年では、有名人や架空のキャラクターのアバターを生成するテキスト・ツー・3D手法が日常の人と争っている。
忠実な復元法は通常、コントロールされた設定でフルボディのイメージを必要とする。
もしユーザーが自分の「OOTD(Outfit Of The Day)」写真をアップロードして、その代わりに忠実なアバターをもらえるとしたらどうだろう?
課題は、このようなカジュアルな写真コレクションには、さまざまなポーズ、挑戦的な視点、収穫された視点、そして(一貫した服装、アクセサリー、ヘアスタイルの)隠蔽が含まれていることだ。
本稿では,OOTDアルバムから忠実な3Dアバター(カノニカルポーズ)を生成する新しいモデルであるPuzzleAvatarを開発し,身体とカメラのポーズの難易度を回避しながら,この課題に対処する。
この目的のために、このような写真に基礎となる視覚言語モデル(VLM)を微調整し、人物の外観、アイデンティティ、衣服、髪型、アクセサリーを学習トークン(別個)に符号化し、これらのキューをVLMに注入する。
事実上、学習したトークンを「パズルピース」として活用し、忠実でパーソナライズされた3Dアバターを組み立てる。
重要なのは、トークンを交換するだけでアバターをカスタマイズできることです。
この新しいタスクのベンチマークとして、PuzzleIOIと呼ばれる新しいデータセットを収集し、41人の被験者が合計で1K OOTD構成をしており、対の地上3Dボディを持つ部分的な写真に挑戦している。
PuzzleAvatarは高い再現精度、TeCHとMVDreamBoothを上回っているだけでなく、アルバム写真に特有のスケーラビリティ、強力な堅牢性を持っている。
私たちのモデルとデータは公開されます。
関連論文リスト
- WildAvatar: Web-scale In-the-wild Video Dataset for 3D Avatar Creation [55.85887047136534]
WildAvatar(ワイルドアバター)は、YouTubeから抽出されたウェブスケールの人間のアバター生成データセットである。
我々は,アバター作成における現実のアプリケーションにおける未探索課題を,データセット上でいくつかの最先端アバター作成手法を評価した。
論文 参考訳(メタデータ) (2024-07-02T11:17:48Z) - Text2Avatar: Text to 3D Human Avatar Generation with Codebook-Driven
Body Controllable Attribute [33.330629835556664]
本研究では,テキストプロンプトを結合した3次元アバターを現実的に生成できるText2Avatarを提案する。
リアルな3次元アバターデータの不足を軽減するために, 事前学習した非条件の3次元アバター生成モデルを用いる。
論文 参考訳(メタデータ) (2024-01-01T09:39:57Z) - AvatarStudio: High-fidelity and Animatable 3D Avatar Creation from Text [71.09533176800707]
アバターストゥディオ(AvatarStudio)は、アニマタブルな人間のアバターのために、明瞭なテクスチャ化された3Dメッシュを生成する粗大で微細な生成モデルである。
調音メッシュ表現とDensePose条件拡散モデルとの相乗効果を効果的に活用することにより、AvatarStudioは高品質なアバターを作成することができる。
論文 参考訳(メタデータ) (2023-11-29T18:59:32Z) - AvatarVerse: High-quality & Stable 3D Avatar Creation from Text and Pose [23.76390935089982]
AvatarVerseはテキスト記述とポーズガイダンスから高表現性3Dアバターを生成する安定なパイプラインである。
そこで本研究では, より表現力が高いだけでなく, 高品質な3次元アバターの非忠実な3次元モデリングを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:09:46Z) - AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation [14.062402203105712]
AvatarBoothはテキストプロンプトや特定の画像を使って高品質な3Dアバターを生成する新しい方法である。
我々の重要な貢献は、二重微調整拡散モデルを用いた正確なアバター生成制御である。
本稿では,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-16T14:18:51Z) - DreamWaltz: Make a Scene with Complex 3D Animatable Avatars [68.49935994384047]
本稿では,テキストガイダンスとパラメトリック人体を用いた複雑な3Dアバターの生成とアニメーションを行う新しいフレームワークであるDreamWaltzを紹介する。
アニメーションでは,様々なポーズに条件付き拡散モデルの豊富な画像から,アニマタブルな3次元アバター表現を学習する。
論文 参考訳(メタデータ) (2023-05-21T17:59:39Z) - OTAvatar: One-shot Talking Face Avatar with Controllable Tri-plane
Rendering [81.55960827071661]
制御性、一般化性、効率性は、ニューラル暗黙の場で表される顔アバターを構成する主要な目的である。
汎用制御可能な3面描画ソリューションにより顔アバターを構成するワンショット面アバター(OTAvatar)を提案する。
論文 参考訳(メタデータ) (2023-03-26T09:12:03Z) - MVP-Human Dataset for 3D Human Avatar Reconstruction from Unconstrained
Frames [59.37430649840777]
野生(Arwild)における3次元アバター再構成を行い,まず暗黙のスキンフィールドを多段階的に再構成する。
大規模なデータセットであるMVP-Humanには400人の被験者が参加し、それぞれ異なるポーズで15のスキャンを行います。
全体として、特定のネットワークアーキテクチャと多様なデータにより、トレーニングされたモデルは、制約のないフレームから3Dアバターを再構築することができる。
論文 参考訳(メタデータ) (2022-04-24T03:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。