論文の概要: DreamBooth3D: Subject-Driven Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2303.13508v2
- Date: Mon, 27 Mar 2023 15:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 11:47:05.525632
- Title: DreamBooth3D: Subject-Driven Text-to-3D Generation
- Title(参考訳): dreambooth3d: 主題駆動テキストから3d生成
- Authors: Amit Raj, Srinivas Kaza, Ben Poole, Michael Niemeyer, Nataniel Ruiz,
Ben Mildenhall, Shiran Zada, Kfir Aberman, Michael Rubinstein, Jonathan
Barron, Yuanzhen Li, Varun Jampani
- Abstract要約: そこで,DreamBooth3Dを提案する。DreamBooth3Dは,テキストから3Dへの生成モデルを3~6個の画像からパーソナライズする手法である。
これらの手法を鼻で組み合わせると、被験者の入力視点に過度に適合するパーソナライズされたテキスト・ツー・イメージ・モデルにより、満足のいく主題固有の3Dアセットが得られないことがわかった。
提案手法は,新規なポーズ,色,属性などのテキスト操作によって,被験者の入力画像にない高品質な3Dアセットを作成できる。
- 参考スコア(独自算出の注目度): 43.14506066034495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DreamBooth3D, an approach to personalize text-to-3D generative
models from as few as 3-6 casually captured images of a subject. Our approach
combines recent advances in personalizing text-to-image models (DreamBooth)
with text-to-3D generation (DreamFusion). We find that naively combining these
methods fails to yield satisfactory subject-specific 3D assets due to
personalized text-to-image models overfitting to the input viewpoints of the
subject. We overcome this through a 3-stage optimization strategy where we
jointly leverage the 3D consistency of neural radiance fields together with the
personalization capability of text-to-image models. Our method can produce
high-quality, subject-specific 3D assets with text-driven modifications such as
novel poses, colors and attributes that are not seen in any of the input images
of the subject.
- Abstract(参考訳): そこで,DreamBooth3Dを提案する。DreamBooth3Dは,テキストから3Dへの生成モデルを3~6個の画像からパーソナライズする手法である。
提案手法は,テキスト・ツー・イメージ・モデル(DreamBooth)とテキスト・ツー・3D生成(DreamFusion)を併用する。
対象の入力視点に過剰なパーソナライズされたテキストから画像へのモデルが原因で,これらの手法を素直に組み合わせると,満足のいく主題固有の3dアセットが得られないことがわかった。
我々は、3段階の最適化戦略によってこれを克服し、ニューラルネットワークの放射能場の3次元的一貫性と、テキストから画像へのモデルのパーソナライズ能力を同時に活用する。
提案手法は,新規なポーズ,色,属性などのテキスト操作によって,被験者の入力画像にない高品質な3Dアセットを作成できる。
関連論文リスト
- Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation [12.693847842218604]
5分以内に高忠実で一貫した3Dコンテンツをパーソナライズできる新しい3Dカスタマイズ手法「Make-Your-3D」を導入する。
我々の重要な洞察は、多視点拡散モデルとアイデンティティ特異的な2次元生成モデルの分布を調和させ、所望の3次元対象の分布と整合させることである。
提案手法は,高画質で一貫した,かつ主観的な3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2024-03-14T17:57:04Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding [15.341857735842954]
既存のテキストから3Dの手法はモード崩壊を起こしやすいため、結果の多様性は低い。
同じテキストプロンプトから異なる3次元モデルの結合生成を考慮した新しい手法を提案する。
本手法はテキストから3D合成における多様性を質的,定量的に向上させることを示す。
論文 参考訳(メタデータ) (2023-12-02T08:21:20Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z) - Fantasia3D: Disentangling Geometry and Appearance for High-quality
Text-to-3D Content Creation [45.69270771487455]
本稿では,高品質なテキスト・ツー・3Dコンテンツ作成のためのFantasia3Dの新たな手法を提案する。
Fantasia3Dの鍵となるのは、幾何学と外観の混乱したモデリングと学習である。
我々のフレームワークは、人気のあるグラフィックスエンジンとより互換性があり、生成した3Dアセットのリライティング、編集、物理シミュレーションをサポートしています。
論文 参考訳(メタデータ) (2023-03-24T09:30:09Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。