論文の概要: ATT3D: Amortized Text-to-3D Object Synthesis
- arxiv url: http://arxiv.org/abs/2306.07349v1
- Date: Tue, 6 Jun 2023 17:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 12:31:03.055729
- Title: ATT3D: Amortized Text-to-3D Object Synthesis
- Title(参考訳): ATT3D:Amortized Text-to-3D Object Synthesis
- Authors: Jonathan Lorraine, Kevin Xie, Xiaohui Zeng, Chen-Hsuan Lin, Towaki
Takikawa, Nicholas Sharp, Tsung-Yi Lin, Ming-Yu Liu, Sanja Fidler, James
Lucas
- Abstract要約: 我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
- 参考スコア(独自算出の注目度): 78.96673650638365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-3D modelling has seen exciting progress by combining generative
text-to-image models with image-to-3D methods like Neural Radiance Fields.
DreamFusion recently achieved high-quality results but requires a lengthy,
per-prompt optimization to create 3D objects. To address this, we amortize
optimization over text prompts by training on many prompts simultaneously with
a unified model, instead of separately. With this, we share computation across
a prompt set, training in less time than per-prompt optimization. Our framework
- Amortized text-to-3D (ATT3D) - enables knowledge-sharing between prompts to
generalize to unseen setups and smooth interpolations between text for novel
assets and simple animations.
- Abstract(参考訳): テキストから3dへのモデリングは、生成的なテキストから画像へのモデルと、ニューラル・ラミアンス・フィールドのような画像から3dへの手法を組み合わせることで、エキサイティングな進歩を遂げている。
DreamFusionは最近、高品質な結果を得たが、3Dオブジェクトを作成するには、長いプロンプトごとの最適化が必要である。
これに対処するために,複数のプロンプトと統一モデルを同時にトレーニングすることで,テキストプロンプトに対する最適化を別途実施する。
これにより、プロンプトセット間で計算を共有し、プロンプト毎の最適化よりも少ない時間でトレーニングします。
我々のフレームワーク - amortized text-to-3d (att3d) - は、未発見の設定を一般化するためのプロンプト間の知識共有を可能にし、新しいアセットと単純なアニメーションのためのテキスト間のスムーズな補間を可能にします。
関連論文リスト
- Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。
我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
論文 参考訳(メタデータ) (2024-04-10T17:57:41Z) - LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis [76.43669909525488]
LATTE3Dは400msで3Dオブジェクトを生成し、高速なテストタイム最適化でさらに拡張することができる。
LATTE3Dを導入し、これらの制限に対処し、より大きなプロンプトセット上で高速で高品質な生成を実現する。
論文 参考訳(メタデータ) (2024-03-22T17:59:37Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding [15.341857735842954]
既存のテキストから3Dの手法はモード崩壊を起こしやすいため、結果の多様性は低い。
同じテキストプロンプトから異なる3次元モデルの結合生成を考慮した新しい手法を提案する。
本手法はテキストから3D合成における多様性を質的,定量的に向上させることを示す。
論文 参考訳(メタデータ) (2023-12-02T08:21:20Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - DreamBooth3D: Subject-Driven Text-to-3D Generation [43.14506066034495]
そこで,DreamBooth3Dを提案する。DreamBooth3Dは,テキストから3Dへの生成モデルを3~6個の画像からパーソナライズする手法である。
これらの手法を鼻で組み合わせると、被験者の入力視点に過度に適合するパーソナライズされたテキスト・ツー・イメージ・モデルにより、満足のいく主題固有の3Dアセットが得られないことがわかった。
提案手法は,新規なポーズ,色,属性などのテキスト操作によって,被験者の入力画像にない高品質な3Dアセットを作成できる。
論文 参考訳(メタデータ) (2023-03-23T17:59:00Z) - Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and
Text-to-Image Diffusion Models [44.34479731617561]
我々はCLIP誘導3次元最適化プロセスに明示的な3次元形状前処理を導入する。
テキストと画像のモダリティを直接、強力なテキストと画像の拡散モデルでブリッジする、シンプルで効果的なアプローチを提案する。
提案手法であるDream3Dは,視覚的品質と形状の精度に優れた想像的3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2022-12-28T18:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。