論文の概要: Zero-Shot Text-Guided Object Generation with Dream Fields
- arxiv url: http://arxiv.org/abs/2112.01455v1
- Date: Thu, 2 Dec 2021 17:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 18:58:03.493849
- Title: Zero-Shot Text-Guided Object Generation with Dream Fields
- Title(参考訳): ドリームフィールドを用いたゼロショットテキストガイドオブジェクト生成
- Authors: Ajay Jain, Ben Mildenhall, Jonathan T. Barron, Pieter Abbeel, Ben
Poole
- Abstract要約: ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。
提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。
実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
- 参考スコア(独自算出の注目度): 111.06026544180398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We combine neural rendering with multi-modal image and text representations
to synthesize diverse 3D objects solely from natural language descriptions. Our
method, Dream Fields, can generate the geometry and color of a wide range of
objects without 3D supervision. Due to the scarcity of diverse, captioned 3D
data, prior methods only generate objects from a handful of categories, such as
ShapeNet. Instead, we guide generation with image-text models pre-trained on
large datasets of captioned images from the web. Our method optimizes a Neural
Radiance Field from many camera views so that rendered images score highly with
a target caption according to a pre-trained CLIP model. To improve fidelity and
visual quality, we introduce simple geometric priors, including
sparsity-inducing transmittance regularization, scene bounds, and new MLP
architectures. In experiments, Dream Fields produce realistic, multi-view
consistent object geometry and color from a variety of natural language
captions.
- Abstract(参考訳): ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで,自然言語表現のみから多様な3dオブジェクトを合成する。
提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。
多様なキャプション付き3Dデータの不足のため、以前のメソッドはShapeNetのようないくつかのカテゴリからオブジェクトのみを生成する。
代わりに、ウェブからキャプションされた画像の大きなデータセットで事前訓練された画像テキストモデルを用いて生成をガイドする。
提案手法は,多くのカメラビューからニューラルレージアンスフィールドを最適化し,事前学習したCLIPモデルに従って,画像のレンダリングをターゲットキャプションで高いスコアで評価する。
忠実度と視覚的品質を改善するために,空間性誘導透過率正則化,シーン境界,新しいMLPアーキテクチャなど,単純な幾何学的先行手法を導入する。
実験において、ドリームフィールドは様々な自然言語キャプションから写実的で多視点の一貫したオブジェクト幾何学と色を作り出す。
関連論文リスト
- Single-Shot Implicit Morphable Faces with Consistent Texture
Parameterization [91.52882218901627]
本稿では,3次元形態素な顔モデルを構築するための新しい手法を提案する。
本手法は, 最先端手法と比較して, フォトリアリズム, 幾何, 表現精度を向上する。
論文 参考訳(メタデータ) (2023-05-04T17:58:40Z) - Fantasia3D: Disentangling Geometry and Appearance for High-quality
Text-to-3D Content Creation [32.71321448856013]
本稿では,高品質なテキスト・ツー・3Dコンテンツ作成のためのFantasia3Dの新たな手法を提案する。
Fantasia3Dの鍵となるのは、幾何学と外観の混乱したモデリングと学習である。
我々のフレームワークは、人気のあるグラフィックスエンジンとより互換性があり、生成した3Dアセットのリライティング、編集、物理シミュレーションをサポートしています。
論文 参考訳(メタデータ) (2023-03-24T09:30:09Z) - DreamBooth3D: Subject-Driven Text-to-3D Generation [43.14506066034495]
そこで,DreamBooth3Dを提案する。DreamBooth3Dは,テキストから3Dへの生成モデルを3~6個の画像からパーソナライズする手法である。
これらの手法を鼻で組み合わせると、被験者の入力視点に過度に適合するパーソナライズされたテキスト・ツー・イメージ・モデルにより、満足のいく主題固有の3Dアセットが得られないことがわかった。
提案手法は,新規なポーズ,色,属性などのテキスト操作によって,被験者の入力画像にない高品質な3Dアセットを作成できる。
論文 参考訳(メタデータ) (2023-03-23T17:59:00Z) - Painting 3D Nature in 2D: View Synthesis of Natural Scenes from a Single
Semantic Mask [29.38152100352871]
本稿では,自然シーンの多視点一貫したカラーイメージを合成するために,単一のセマンティックマスクを入力として利用する新しいアプローチを提案する。
提案手法は,様々な自然シーンのベースライン手法より優れ,フォトリアリスティックで多視点一貫した映像を制作する。
論文 参考訳(メタデータ) (2023-02-14T17:57:58Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [104.31627153777605]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。