Fugu-MT 論文翻訳(概要): Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation

論文の概要: Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation

arxiv url: http://arxiv.org/abs/2412.02631v1
Date: Tue, 03 Dec 2024 17:58:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:23.089197
Title: Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation
Title（参考訳）: Sharp-It:3次元合成と操作のための多視点拡散モデル
Authors: Yiftach Edelstein, Or Patashnik, Dana Cohen-Bar, Lihi Zelnik-Manor,
Abstract要約: 我々は,3次元表現を直接生成する手法と,多視点画像から3次元オブジェクトを再構成する手法の質差を橋渡しする。シャープ・イット(Sharp-It)と呼ばれるマルチビュー拡散モデルを導入する。 Sharp-Itは高速な合成、編集、制御された生成などの様々な3Dアプリケーションを可能にすると同時に、高品質な資産を達成可能であることを実証する。
参考スコア（独自算出の注目度）: 15.215597253086612
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advancements in text-to-image diffusion models have led to significant progress in fast 3D content creation. One common approach is to generate a set of multi-view images of an object, and then reconstruct it into a 3D model. However, this approach bypasses the use of a native 3D representation of the object and is hence prone to geometric artifacts and limited in controllability and manipulation capabilities. An alternative approach involves native 3D generative models that directly produce 3D representations. These models, however, are typically limited in their resolution, resulting in lower quality 3D objects. In this work, we bridge the quality gap between methods that directly generate 3D representations and ones that reconstruct 3D objects from multi-view images. We introduce a multi-view to multi-view diffusion model called Sharp-It, which takes a 3D consistent set of multi-view images rendered from a low-quality object and enriches its geometric details and texture. The diffusion model operates on the multi-view set in parallel, in the sense that it shares features across the generated views. A high-quality 3D model can then be reconstructed from the enriched multi-view set. By leveraging the advantages of both 2D and 3D approaches, our method offers an efficient and controllable method for high-quality 3D content creation. We demonstrate that Sharp-It enables various 3D applications, such as fast synthesis, editing, and controlled generation, while attaining high-quality assets.
Abstract（参考訳）: テキストと画像の拡散モデルの進歩は、高速な3Dコンテンツ作成に大きな進歩をもたらした。 1つの一般的なアプローチは、オブジェクトのマルチビューイメージのセットを生成し、それを3Dモデルに再構成することである。しかし、このアプローチはオブジェクトのネイティブな3D表現の使用を回避し、従って幾何学的アーティファクトに傾向があり、制御性と操作能力に制限がある。もう一つのアプローチは、3D表現を直接生成するネイティブな3D生成モデルである。しかし、これらのモデルは通常、解像度が制限され、3Dオブジェクトの品質が低下する。本研究では,3次元表現を直接生成する手法と,多視点画像から3次元オブジェクトを再構成する手法の質差を橋渡しする。シャープ・イット(Sharp-It)と呼ばれるマルチビュー拡散モデルを導入し,低品質なオブジェクトからレンダリングされた3次元一貫した多視点画像の集合を取り,幾何学的詳細とテクスチャを充実させる。拡散モデルは、生成されたビューをまたいだ特徴を共有するという意味で、マルチビューセットを並列に動作させる。高品質な3Dモデルは、リッチなマルチビューセットから再構成することができる。 2Dと3Dの両手法の利点を生かして,高品質な3Dコンテンツ作成のための効率的かつ制御可能な手法を提案する。 Sharp-Itは高速な合成、編集、制御された生成などの様々な3Dアプリケーションを可能にすると同時に、高品質な資産を達成可能であることを実証する。

関連論文リスト

Any-to-3D Generation via Hybrid Diffusion Supervision [67.54197818071464]
XBindは、クロスモーダルな事前アライメント技術を用いた、任意の3D生成のための統一されたフレームワークである。 XBindは、任意のモダリティから3Dオブジェクトを生成するために、事前訓練された拡散モデルとマルチモーダル整列エンコーダを統合する。
論文参考訳（メタデータ） (2024-11-22T03:52:37Z)
Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。 Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文参考訳（メタデータ） (2024-09-11T17:58:57Z)
Unique3D: High-Quality and Efficient 3D Mesh Generation from a Single Image [28.759158325097093]
Unique3Dは、シングルビュー画像から高品質な3Dメッシュを効率的に生成するための、新しい画像間3Dフレームワークである。我々のフレームワークは、最先端世代の忠実さと強力な一般化性を備えている。
論文参考訳（メタデータ） (2024-05-30T17:59:54Z)
Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer [26.375689838055774]
Direct3Dは、Wildの入力画像にスケーラブルなネイティブな3D生成モデルである。提案手法は, 直接3次元変分オートエンコーダ(D3D-VAE)と直接3次元拡散変換器(D3D-DiT)の2成分からなる。
論文参考訳（メタデータ） (2024-05-23T17:49:37Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文参考訳（メタデータ） (2024-03-19T03:39:43Z)
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文参考訳（メタデータ） (2024-03-14T14:31:22Z)
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文参考訳（メタデータ） (2024-02-07T17:57:03Z)
One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion [32.29687304798145]
One-2-3-45++は、1つの画像を1分で詳細な3Dテクスチャメッシュに変換する革新的な方法である。提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
論文参考訳（メタデータ） (2023-11-14T03:40:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。