論文の概要: YouDream: Generating Anatomically Controllable Consistent Text-to-3D Animals
- arxiv url: http://arxiv.org/abs/2406.16273v1
- Date: Mon, 24 Jun 2024 02:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:13:09.949873
- Title: YouDream: Generating Anatomically Controllable Consistent Text-to-3D Animals
- Title(参考訳): YouDream: 解剖学的に制御可能なテキストから3D動物の生成
- Authors: Sandeep Mishra, Oindrila Saha, Alan C. Bovik,
- Abstract要約: 高品質な解剖学的制御が可能な動物を生成する方法であるYouDreamを提案する。
YouDreamは3Dポーズの2Dビューによって制御されるテキストから画像への拡散モデルを用いてガイドされる。
本手法は,従来のテキスト・ツー・3D生成手法では生成できない3D動物を生成する。
- 参考スコア(独自算出の注目度): 32.067205350291964
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D generation guided by text-to-image diffusion models enables the creation of visually compelling assets. However previous methods explore generation based on image or text. The boundaries of creativity are limited by what can be expressed through words or the images that can be sourced. We present YouDream, a method to generate high-quality anatomically controllable animals. YouDream is guided using a text-to-image diffusion model controlled by 2D views of a 3D pose prior. Our method generates 3D animals that are not possible to create using previous text-to-3D generative methods. Additionally, our method is capable of preserving anatomic consistency in the generated animals, an area where prior text-to-3D approaches often struggle. Moreover, we design a fully automated pipeline for generating commonly found animals. To circumvent the need for human intervention to create a 3D pose, we propose a multi-agent LLM that adapts poses from a limited library of animal 3D poses to represent the desired animal. A user study conducted on the outcomes of YouDream demonstrates the preference of the animal models generated by our method over others. Turntable results and code are released at https://youdream3d.github.io/
- Abstract(参考訳): テキストから画像への拡散モデルでガイドされた3D生成は、視覚的に魅力的な資産の作成を可能にする。
しかし、以前の手法は画像やテキストに基づいて生成を探索する。
創造性の境界は、表現できる言葉や、表現できる画像によって制限される。
高品質な解剖学的制御が可能な動物を生成する方法であるYouDreamを提案する。
YouDreamは3Dポーズの2Dビューによって制御されるテキストから画像への拡散モデルを用いてガイドされる。
本手法は,従来のテキスト・ツー・3D生成手法では生成できない3D動物を生成する。
さらに,本手法は,従来のテキストから3Dへのアプローチがしばしば苦労する領域である生成動物において,解剖学的整合性を維持することができる。
さらに、よく見られる動物を生成するための完全自動パイプラインを設計する。
人間の介入を回避して3Dポーズを作成するために,動物3Dポーズの限られたライブラリからのポーズを適応させるマルチエージェントLSMを提案する。
YouDreamの結果に関するユーザスタディでは,本手法が生み出す動物モデルの嗜好を他者に対して示す。
Turntableの結果とコードはhttps://youdream3d.github.io/で公開される。
関連論文リスト
- C3DAG: Controlled 3D Animal Generation using 3D pose guidance [32.067205350291964]
C3DAGは3D生成フレームワークである。
与えられたポーズと整合した高品質な3D動物を生成する。
論文 参考訳(メタデータ) (2024-06-11T21:57:47Z) - Synthesizing Moving People with 3D Control [88.68284137105654]
対象とする3次元運動系列の単一画像から人物をアニメーションする拡散モデルに基づくフレームワークを提案する。
まず,1つの画像が与えられた人の見えない部分を幻覚させる拡散モデルについて学習する。
第2に,3次元人間のポーズによって制御される拡散に基づくレンダリングパイプラインを開発する。
論文 参考訳(メタデータ) (2024-01-19T18:59:11Z) - IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts [90.49024750432139]
IPDreamerは複雑な$textbfI$mage $textbfP$romptsから複雑な外観特徴をキャプチャし、合成した3Dオブジェクトをこれらの特徴と整合させる。
IPDreamerはテキストと複雑な画像のプロンプトに整合した高品質な3Dオブジェクトを一貫して生成することを示した。
論文 参考訳(メタデータ) (2023-10-09T03:11:08Z) - Articulated 3D Head Avatar Generation using Text-to-Image Diffusion
Models [107.84324544272481]
多様な頭部アバターを合成する能力は、拡張現実、撮影、教育など、多くの応用に不可欠である。
テキスト誘導型3Dオブジェクト生成に関する最近の研究は、これらのニーズに対処する上で大きな可能性を秘めている。
拡散に基づく頭部アバターは,この課題に対する最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T19:15:32Z) - DreamHuman: Animatable 3D Avatars from Text [41.30635787166307]
本研究では,テキスト記述のみから現実的な3次元アバターモデルを生成するDreamHumanを提案する。
我々の3Dモデルは、外観、衣服、肌のトーン、体形が多様であり、一般的なテキストから3Dへのアプローチと、以前のテキストベースの3Dアバタージェネレータを視覚的忠実度で大幅に上回っている。
論文 参考訳(メタデータ) (2023-06-15T17:58:21Z) - AG3D: Learning to Generate 3D Avatars from 2D Image Collections [96.28021214088746]
本稿では,2次元画像から現実的な3次元人物の新たな逆生成モデルを提案する。
本手法は, 全身型3Dジェネレータを用いて, 体の形状と変形を捉える。
提案手法は, 従来の3次元・調音認識手法よりも幾何的, 外観的に優れていた。
論文 参考訳(メタデータ) (2023-05-03T17:56:24Z) - AniFaceGAN: Animatable 3D-Aware Face Image Generation for Video Avatars [71.00322191446203]
2D生成モデルは、異なるカメラ視点で画像をレンダリングする際に、しばしば望ましくないアーティファクトに悩まされる。
近年,3次元シーン表現を活用することで,3次元カメラポーズのゆがみを明示するために2次元GANを拡張している。
マルチビュー一貫した顔アニメーション生成のためのアニマタブルな3D対応GANを提案する。
論文 参考訳(メタデータ) (2022-10-12T17:59:56Z) - LASSIE: Learning Articulated Shapes from Sparse Image Ensemble via 3D
Part Discovery [72.3681707384754]
そこで,本研究では,特定の動物種について,数枚の画像のみを用いて,動物の3次元ポーズと形状を推定する現実的な問題設定を提案する。
我々は2Dや3Dの地平線アノテーションを前提としないし、多視点や時間的情報も利用しない。
そこで本研究では,3次元部品を自己監督的に発見する新しい最適化フレームワークLASSIEを提案する。
論文 参考訳(メタデータ) (2022-07-07T17:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。