論文の概要: Vox-E: Text-guided Voxel Editing of 3D Objects
- arxiv url: http://arxiv.org/abs/2303.12048v2
- Date: Mon, 21 Aug 2023 13:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 00:34:07.024363
- Title: Vox-E: Text-guided Voxel Editing of 3D Objects
- Title(参考訳): Vox-E:3DオブジェクトのテキストガイドによるVoxel編集
- Authors: Etai Sella, Gal Fiebelman, Peter Hedman, Hadar Averbuch-Elor
- Abstract要約: 大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
- 参考スコア(独自算出の注目度): 14.88446525549421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large scale text-guided diffusion models have garnered significant attention
due to their ability to synthesize diverse images that convey complex visual
concepts. This generative power has more recently been leveraged to perform
text-to-3D synthesis. In this work, we present a technique that harnesses the
power of latent diffusion models for editing existing 3D objects. Our method
takes oriented 2D images of a 3D object as input and learns a grid-based
volumetric representation of it. To guide the volumetric representation to
conform to a target text prompt, we follow unconditional text-to-3D methods and
optimize a Score Distillation Sampling (SDS) loss. However, we observe that
combining this diffusion-guided loss with an image-based regularization loss
that encourages the representation not to deviate too strongly from the input
object is challenging, as it requires achieving two conflicting goals while
viewing only structure-and-appearance coupled 2D projections. Thus, we
introduce a novel volumetric regularization loss that operates directly in 3D
space, utilizing the explicit nature of our 3D representation to enforce
correlation between the global structure of the original and edited object.
Furthermore, we present a technique that optimizes cross-attention volumetric
grids to refine the spatial extent of the edits. Extensive experiments and
comparisons demonstrate the effectiveness of our approach in creating a myriad
of edits which cannot be achieved by prior works.
- Abstract(参考訳): 複雑な視覚概念を伝達する多様な画像を合成する能力から,大規模テキスト誘導拡散モデルが注目されている。
この生成能力は近年、テキストから3d合成に活用されている。
本研究では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
提案手法は,3次元オブジェクトの2次元画像を入力として用いて,グリッドベースのボリューム表現を学習する。
目的のテキストプロンプトに適合するように容積表現を導くため、無条件のテキストから3D手法に従い、スコア蒸留サンプリング(SDS)損失を最適化する。
しかし,この拡散誘導損失と,入力対象から過度に逸脱しない表現を奨励するイメージベース正規化損失の組み合わせは,構造と外観を結合した2次元投影のみを見ながら2つの相反する目標を達成する必要があるため,困難である。
そこで本研究では,3次元表現の明示的な性質を活かし,直接3次元空間で操作する新たな体積正規化損失を導入することにより,オリジナルオブジェクトと編集オブジェクトの全体構造との相関性を実現する。
さらに,編集の空間的範囲を改良するために,クロスアテンションボリュームグリッドを最適化する手法を提案する。
広範な実験と比較は,先行作品では達成できない無数の編集を作成するためのアプローチの有効性を示している。
関連論文リスト
- VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing [22.39760469467524]
本研究では,2次元拡散モデルと3次元拡散モデルの間のモーダルギャップに対処する分散テクスチャ合成を提案する。
我々は、競合する領域との詳細な関係を改善するために、塗装モジュールを提示する。
論文 参考訳(メタデータ) (2024-07-05T12:11:33Z) - Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors [24.478875248825563]
単一画像の3次元操作を可能にする新しい画像編集手法を提案する。
本手法は,テキスト・イメージ・ペアの広い範囲で訓練された強力な画像拡散モデルを直接活用する。
提案手法では,高画質な3D画像編集が可能で,視点変換が大きく,外観や形状の整合性も高い。
論文 参考訳(メタデータ) (2024-03-18T06:18:59Z) - SERF: Fine-Grained Interactive 3D Segmentation and Editing with Radiance Fields [92.14328581392633]
放射場を用いた対話型3Dセグメンテーションと編集アルゴリズムを新たに導入し,これをSERFと呼ぶ。
提案手法では,マルチビューアルゴリズムと事前学習した2Dモデルを統合することにより,ニューラルネットワーク表現を生成する。
この表現に基づいて,局所的な情報を保存し,変形に頑健な新しい表面レンダリング技術を導入する。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。
拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文 参考訳(メタデータ) (2023-09-26T12:01:13Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。