論文の概要: SYM3D: Learning Symmetric Triplanes for Better 3D-Awareness of GANs
- arxiv url: http://arxiv.org/abs/2406.06432v1
- Date: Mon, 10 Jun 2024 16:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 12:59:23.983601
- Title: SYM3D: Learning Symmetric Triplanes for Better 3D-Awareness of GANs
- Title(参考訳): SYM3D:GANの3次元認識性向上のための対称三葉機学習
- Authors: Jing Yang, Kyle Fogarty, Fangcheng Zhong, Cengiz Oztireli,
- Abstract要約: SYM3Dは,天然物や人工物に見られる主観対称性構造を活用するために設計された,新しい3D対応GANである。
我々はSYM3Dを合成(ShapeNet Chairs, Cars, Airplanes)と実世界のデータセットで評価した。
- 参考スコア(独自算出の注目度): 5.84660008137615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the growing success of 3D-aware GANs, which can be trained on 2D images to generate high-quality 3D assets, they still rely on multi-view images with camera annotations to synthesize sufficient details from all viewing directions. However, the scarce availability of calibrated multi-view image datasets, especially in comparison to single-view images, has limited the potential of 3D GANs. Moreover, while bypassing camera pose annotations with a camera distribution constraint reduces dependence on exact camera parameters, it still struggles to generate a consistent orientation of 3D assets. To this end, we propose SYM3D, a novel 3D-aware GAN designed to leverage the prevalent reflectional symmetry structure found in natural and man-made objects, alongside a proposed view-aware spatial attention mechanism in learning the 3D representation. We evaluate SYM3D on both synthetic (ShapeNet Chairs, Cars, and Airplanes) and real-world datasets (ABO-Chair), demonstrating its superior performance in capturing detailed geometry and texture, even when trained on only single-view images. Finally, we demonstrate the effectiveness of incorporating symmetry regularization in helping reduce artifacts in the modeling of 3D assets in the text-to-3D task.
- Abstract(参考訳): 高品質な3Dアセットを生成するために2Dイメージでトレーニングできる3D対応のGANは、ますます成功している。
しかし、キャリブレーションされたマルチビュー画像データセットの可用性は、特にシングルビュー画像と比較して低いため、3D GANの可能性は制限されている。
さらに,カメラ分布制約によるアノテーションの回避は,正確なカメラパラメータへの依存を減少させるが,それでも3Dアセットの一貫した配向を生成するのに苦慮している。
そこで本研究では,自然物や人工物に見られる反射対称構造を利用した新しい3D対応GANであるSYM3Dを提案する。
SYM3Dを合成(ShapeNet Chairs, Cars, Airplanes)と実世界のデータセット(ABO-Chairs)の両方で評価し、単視点画像のみを用いて訓練しても、詳細な形状やテクスチャを捉える上で優れた性能を示す。
最後に, テキスト・ツー・3Dタスクにおける3Dアセットのモデリングにおいて, アーチファクトの削減を支援するために, 対称性の正則化を取り入れることの有効性を実証する。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning [67.61509647032862]
入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。
入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
論文 参考訳(メタデータ) (2023-12-14T08:39:39Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - Structured 3D Features for Reconstructing Controllable Avatars [43.36074729431982]
パラメトリックな統計的メッシュ表面からサンプリングされた高密度な3次元点に画素整列画像特徴をプールする,新しい暗黙の3次元表現に基づくモデルであるStructured 3D Featuresを紹介する。
本研究では,S3Fモデルがモノクロ3D再構成やアルベド,シェーディング推定など,これまでの課題を超越していることを示す。
論文 参考訳(メタデータ) (2022-12-13T18:57:33Z) - 3inGAN: Learning a 3D Generative Model from Images of a Self-similar
Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。
実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文 参考訳(メタデータ) (2022-11-27T18:03:21Z) - 3D GAN Inversion with Pose Optimization [26.140281977885376]
本稿では,カメラ視点と潜時符号を同時に推論し,マルチビューで一貫したセマンティック画像編集を可能にする一般化可能な3D GANインバージョン手法を提案する。
画像の再構成と編集を定量的かつ質的に行い、さらに2D GANベースの編集と比較した。
論文 参考訳(メタデータ) (2022-10-13T19:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。