Fugu-MT 論文翻訳(概要): Vox-E: Text-guided Voxel Editing of 3D Objects

論文の概要: Vox-E: Text-guided Voxel Editing of 3D Objects

arxiv url: http://arxiv.org/abs/2303.12048v3
Date: Tue, 19 Sep 2023 05:41:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 20:12:13.155754
Title: Vox-E: Text-guided Voxel Editing of 3D Objects
Title（参考訳）: Vox-E:3DオブジェクトのテキストガイドによるVoxel編集
Authors: Etai Sella, Gal Fiebelman, Peter Hedman, Hadar Averbuch-Elor
Abstract要約: 大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
参考スコア（独自算出の注目度）: 14.88446525549421
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large scale text-guided diffusion models have garnered significant attention due to their ability to synthesize diverse images that convey complex visual concepts. This generative power has more recently been leveraged to perform text-to-3D synthesis. In this work, we present a technique that harnesses the power of latent diffusion models for editing existing 3D objects. Our method takes oriented 2D images of a 3D object as input and learns a grid-based volumetric representation of it. To guide the volumetric representation to conform to a target text prompt, we follow unconditional text-to-3D methods and optimize a Score Distillation Sampling (SDS) loss. However, we observe that combining this diffusion-guided loss with an image-based regularization loss that encourages the representation not to deviate too strongly from the input object is challenging, as it requires achieving two conflicting goals while viewing only structure-and-appearance coupled 2D projections. Thus, we introduce a novel volumetric regularization loss that operates directly in 3D space, utilizing the explicit nature of our 3D representation to enforce correlation between the global structure of the original and edited object. Furthermore, we present a technique that optimizes cross-attention volumetric grids to refine the spatial extent of the edits. Extensive experiments and comparisons demonstrate the effectiveness of our approach in creating a myriad of edits which cannot be achieved by prior works.
Abstract（参考訳）: 複雑な視覚概念を伝達する多様な画像を合成する能力から,大規模テキスト誘導拡散モデルが注目されている。この生成能力は近年、テキストから3d合成に活用されている。本研究では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。提案手法は,3次元オブジェクトの2次元画像を入力として用いて,グリッドベースのボリューム表現を学習する。目的のテキストプロンプトに適合するように容積表現を導くため、無条件のテキストから3D手法に従い、スコア蒸留サンプリング(SDS)損失を最適化する。しかし,この拡散誘導損失と,入力対象から過度に逸脱しない表現を奨励するイメージベース正規化損失の組み合わせは,構造と外観を結合した2次元投影のみを見ながら2つの相反する目標を達成する必要があるため,困難である。そこで本研究では,3次元表現の明示的な性質を活かし,直接3次元空間で操作する新たな体積正規化損失を導入することにより,オリジナルオブジェクトと編集オブジェクトの全体構造との相関性を実現する。さらに,編集の空間的範囲を改良するために,クロスアテンションボリュームグリッドを最適化する手法を提案する。広範な実験と比較は,先行作品では達成できない無数の編集を作成するためのアプローチの有効性を示している。

関連論文リスト

3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文参考訳（メタデータ） (2025-08-29T22:51:59Z)
Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-07-18T16:20:56Z)
VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing [22.39760469467524]
本研究では,2次元拡散モデルと3次元拡散モデルの間のモーダルギャップに対処する分散テクスチャ合成を提案する。我々は、競合する領域との詳細な関係を改善するために、塗装モジュールを提示する。
論文参考訳（メタデータ） (2024-07-05T12:11:33Z)
Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors [24.478875248825563]
単一画像の3次元操作を可能にする新しい画像編集手法を提案する。本手法は,テキスト・イメージ・ペアの広い範囲で訓練された強力な画像拡散モデルを直接活用する。提案手法では,高画質な3D画像編集が可能で,視点変換が大きく,外観や形状の整合性も高い。
論文参考訳（メタデータ） (2024-03-18T06:18:59Z)
SERF: Fine-Grained Interactive 3D Segmentation and Editing with Radiance Fields [92.14328581392633]
放射場を用いた対話型3Dセグメンテーションと編集アルゴリズムを新たに導入し,これをSERFと呼ぶ。提案手法では,マルチビューアルゴリズムと事前学習した2Dモデルを統合することにより,ニューラルネットワーク表現を生成する。この表現に基づいて,局所的な情報を保存し,変形に頑健な新しい表面レンダリング技術を導入する。
論文参考訳（メタデータ） (2023-12-26T02:50:42Z)
VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。 3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文参考訳（メタデータ） (2023-12-18T18:59:05Z)
X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文参考訳（メタデータ） (2023-11-30T07:23:00Z)
Directional Texture Editing for 3D Models [51.31499400557996]
ITEM3D は textbf3D オブジェクトの自動編集のために設計されている。拡散モデルと微分可能レンダリングを活用して、ITEM3Dはレンダリングされた画像をテキストと3D表現のブリッジとして取り込む。
論文参考訳（メタデータ） (2023-09-26T12:01:13Z)
IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文参考訳（メタデータ） (2023-08-22T14:39:17Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。