Fugu-MT 論文翻訳(概要): An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion

論文の概要: An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion

arxiv url: http://arxiv.org/abs/2408.03178v1
Date: Tue, 6 Aug 2024 13:22:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 13:58:07.415400
Title: An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion
Title（参考訳）: オブジェクトは64x64の価値がある:画像拡散による3Dオブジェクトの生成
Authors: Xingguang Yan, Han-Hung Lee, Ziyu Wan, Angel X. Chang,
Abstract要約: 対象画像」という表現を通してUVマップを用いたリアルな3Dモデルを生成する新しい手法を提案する。このアプローチは、64x64ピクセル画像内の表面形状、外観、パッチ構造をカプセル化し、複雑な3D形状をより管理可能な2Dフォーマットに変換する。
参考スコア（独自算出の注目度）: 19.466957674632226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a new approach for generating realistic 3D models with UV maps through a representation termed "Object Images." This approach encapsulates surface geometry, appearance, and patch structures within a 64x64 pixel image, effectively converting complex 3D shapes into a more manageable 2D format. By doing so, we address the challenges of both geometric and semantic irregularity inherent in polygonal meshes. This method allows us to use image generation models, such as Diffusion Transformers, directly for 3D shape generation. Evaluated on the ABO dataset, our generated shapes with patch structures achieve point cloud FID comparable to recent 3D generative models, while naturally supporting PBR material generation.
Abstract（参考訳）: 対象画像」という表現を通して,UVマップを用いた現実的な3次元モデルを生成する新しい手法を提案する。このアプローチは、64x64ピクセル画像内の表面形状、外観、パッチ構造をカプセル化し、複雑な3D形状をより管理可能な2Dフォーマットに変換する。これにより、多角形メッシュに固有の幾何学的および意味的不規則性の課題に対処する。本手法では,Diffusion Transformers などの画像生成モデルを直接3次元形状生成に利用することができる。パッチ構造を持つ我々の生成した形状は,最近の3次元生成モデルに匹敵する点雲FIDを実現し,PBR材料生成を自然にサポートする。

関連論文リスト

Advancing high-fidelity 3D and Texture Generation with 2.5D latents [21.33523572280285]
本稿では3次元幾何学とテクスチャの融合生成のための新しい枠組みを提案する。具体的には、2Dと3Dの間でシームレスに変換できる汎用2.5D表現を生成することに重点を置いている。我々のモデルは、テキストや画像からのコヒーレントな構造と色を持つ高品質な3Dオブジェクトの生成に優れるだけでなく、テクスチャ生成における既存の手法よりも優れています。
論文参考訳（メタデータ） (2025-05-27T11:35:35Z)
Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。生成した2次元画像が基本形状と構造を保持することを保証するために,高品質な3次元モデルから導出される深度マップを制御信号として利用する。 3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文参考訳（メタデータ） (2024-08-12T06:25:44Z)
LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文参考訳（メタデータ） (2024-05-24T15:09:12Z)
NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-27T04:09:34Z)
Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation [47.945556996219295]
本稿では2次元画像やテキストに基づいて3次元形状を生成する新しいアライメント前世代手法を提案する。我々のフレームワークは、形状-画像-テキスト対応変分自動エンコーダ(SITA-VAE)と条件付き形状遅延拡散モデル(ASLDM)の2つのモデルで構成されている。
論文参考訳（メタデータ） (2023-06-29T17:17:57Z)
Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文参考訳（メタデータ） (2022-12-14T18:49:50Z)
3D-LDM: Neural Implicit 3D Shape Generation with Latent Diffusion Models [8.583859530633417]
自動復号器の潜時空間で動作する3次元形状のニューラル暗黙表現のための拡散モデルを提案する。これにより、多種多様な高品質な3D表面を生成できます。
論文参考訳（メタデータ） (2022-12-01T20:00:00Z)
XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文参考訳（メタデータ） (2022-10-06T15:54:01Z)
Generative Deformable Radiance Fields for Disentangled Image Synthesis of Topology-Varying Objects [52.46838926521572]
3D認識生成モデルは、モノクロ2D画像の集合から3Dニューラル放射場(NeRF)を生成するスーパーブパフォーマンスを実証した。本研究では, トポロジー変化物体の放射場を非交絡形状と外観変化で合成する生成モデルを提案する。
論文参考訳（メタデータ） (2022-09-09T08:44:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。