論文の概要: DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding
- arxiv url: http://arxiv.org/abs/2312.02192v2
- Date: Wed, 17 Jul 2024 17:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:58:48.851840
- Title: DiverseDream: Diverse Text-to-3D Synthesis with Augmented Text Embedding
- Title(参考訳): DiverseDream: Augmented Text Embedding を用いたDiverse Text-to-3D 合成
- Authors: Uy Dieu Tran, Minh Luu, Phong Ha Nguyen, Khoi Nguyen, Binh-Son Hua,
- Abstract要約: 既存のテキストから3Dの手法はモード崩壊を起こしやすいため、結果の多様性は低い。
同じテキストプロンプトから異なる3次元モデルの結合生成を考慮した新しい手法を提案する。
本手法はテキストから3D合成における多様性を質的,定量的に向上させることを示す。
- 参考スコア(独自算出の注目度): 15.341857735842954
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-3D synthesis has recently emerged as a new approach to sampling 3D models by adopting pretrained text-to-image models as guiding visual priors. An intriguing but underexplored problem with existing text-to-3D methods is that 3D models obtained from the sampling-by-optimization procedure tend to have mode collapses, and hence poor diversity in their results. In this paper, we provide an analysis and identify potential causes of such a limited diversity, which motivates us to devise a new method that considers the joint generation of different 3D models from the same text prompt. We propose to use augmented text prompts via textual inversion of reference images to diversify the joint generation. We show that our method leads to improved diversity in text-to-3D synthesis qualitatively and quantitatively. Project page: https://diversedream.github.io
- Abstract(参考訳): テキスト・ツー・3D合成は, 事前学習されたテキスト・ツー・イメージ・モデルを用いて, 視覚的先行を導くことによって, 3次元モデルをサンプリングする新たなアプローチとして最近登場した。
既存のテキスト・ツー・3D法では、サンプリング・バイ・最適化法から得られた3Dモデルはモード崩壊する傾向にあり、その結果は多様性が低い。
本稿では,このような限られた多様性の潜在的な原因を分析し,同じテキストプロンプトから異なる3次元モデルの結合生成を考慮した新しい手法を考案する動機となる。
本稿では,参照画像のテキストインバージョンによる拡張テキストプロンプトを用いて,共同生成の多様化を提案する。
本手法は,テキストから3D合成の質的,定量的な多様性の向上につながることを示す。
プロジェクトページ: https://diversedream.github.io
関連論文リスト
- Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation [12.693847842218604]
5分以内に高忠実で一貫した3Dコンテンツをパーソナライズできる新しい3Dカスタマイズ手法「Make-Your-3D」を導入する。
我々の重要な洞察は、多視点拡散モデルとアイデンティティ特異的な2次元生成モデルの分布を調和させ、所望の3次元対象の分布と整合させることである。
提案手法は,高画質で一貫した,かつ主観的な3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2024-03-14T17:57:04Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - EfficientDreamer: High-Fidelity and Robust 3D Creation via Orthogonal-view Diffusion Prior [59.25950280610409]
直交ビュー画像誘導を利用した高画質な3Dコンテンツ生成パイプラインを提案する。
本稿では,与えられたテキストプロンプトに基づいて4つのサブイメージからなる画像を生成する2次元拡散モデルを提案する。
また,生成した3Dコンテンツの詳細をさらに改善する3D合成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T07:39:26Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z) - DreamBooth3D: Subject-Driven Text-to-3D Generation [43.14506066034495]
そこで,DreamBooth3Dを提案する。DreamBooth3Dは,テキストから3Dへの生成モデルを3~6個の画像からパーソナライズする手法である。
これらの手法を鼻で組み合わせると、被験者の入力視点に過度に適合するパーソナライズされたテキスト・ツー・イメージ・モデルにより、満足のいく主題固有の3Dアセットが得られないことがわかった。
提案手法は,新規なポーズ,色,属性などのテキスト操作によって,被験者の入力画像にない高品質な3Dアセットを作成できる。
論文 参考訳(メタデータ) (2023-03-23T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。