論文の概要: SPGen: Spherical Projection as Consistent and Flexible Representation for Single Image 3D Shape Generation
- arxiv url: http://arxiv.org/abs/2509.12721v1
- Date: Tue, 16 Sep 2025 06:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.921988
- Title: SPGen: Spherical Projection as Consistent and Flexible Representation for Single Image 3D Shape Generation
- Title(参考訳): SPGen: 単一画像3次元形状生成のための一貫性とフレキシブル表現としての球面投影
- Authors: Jingdong Zhang, Weikai Chen, Yuan Liu, Jionghao Wang, Zhengming Yu, Zhuowen Shen, Bo Yang, Wenping Wang, Xin Li,
- Abstract要約: 既存のシングルビュー3D生成モデルは、通常、オブジェクト表面を再構成するためにマルチビュー拡散プリミティブを採用する。
特に,図形情報を有界球面に投影し,コンパクトで構造的な2次元球面射影表現に変換することで,幾何学情報を符号化する。
SPGenはイメージドメインでのみ動作し、同時に3つの重要な利点を提供する。
- 参考スコア(独自算出の注目度): 34.50147813019856
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing single-view 3D generative models typically adopt multiview diffusion priors to reconstruct object surfaces, yet they remain prone to inter-view inconsistencies and are unable to faithfully represent complex internal structure or nontrivial topologies. In particular, we encode geometry information by projecting it onto a bounding sphere and unwrapping it into a compact and structural multi-layer 2D Spherical Projection (SP) representation. Operating solely in the image domain, SPGen offers three key advantages simultaneously: (1) Consistency. The injective SP mapping encodes surface geometry with a single viewpoint which naturally eliminates view inconsistency and ambiguity; (2) Flexibility. Multi-layer SP maps represent nested internal structures and support direct lifting to watertight or open 3D surfaces; (3) Efficiency. The image-domain formulation allows the direct inheritance of powerful 2D diffusion priors and enables efficient finetuning with limited computational resources. Extensive experiments demonstrate that SPGen significantly outperforms existing baselines in geometric quality and computational efficiency.
- Abstract(参考訳): 既存の単一視点の3D生成モデルは、通常、対象表面を再構成するために、多視点拡散を先取りするが、それらは視間不整合を起こしやすく、複雑な内部構造や非自明なトポロジーを忠実に表現できない。
特に、有界球面に投影して、コンパクトで構造的な2次元球面射影(SP)表現に変換することで、幾何学情報を符号化する。
SPGenはイメージドメインでのみ動作するが、同時に3つの重要な利点がある。
インジェクティブSPマッピングは、ビューの不整合と曖昧さを自然に排除する単一の視点で表面幾何学を符号化する。
多層SPマップは、ネストされた内部構造を表現し、水密または開放された3次元表面への直接昇降をサポートする。
画像領域の定式化は、強力な2次元拡散前の直接継承を可能にし、限られた計算資源で効率的な微調整を可能にする。
大規模な実験により、SPGenは幾何学的品質と計算効率において既存のベースラインを大幅に上回っていることが示された。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,単一画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - VortSDF: 3D Modeling with Centroidal Voronoi Tesselation on Signed Distance Field [5.573454319150408]
四面体グリッド上での3次元形状特性を推定するために,明示的なSDFフィールドと浅いカラーネットワークを組み合わせた体積最適化フレームワークを提案する。
Chamfer統計による実験結果は、オブジェクト、オープンシーン、人間などの様々なシナリオにおいて、前例のない復元品質でこのアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T09:46:39Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - Probabilistic Directed Distance Fields for Ray-Based Shape Representations [8.134429779950658]
Directed Distance Fields (DDF) は、古典的な距離場の上に構築された新しいニューラルな形状表現である。
基礎分野における本質的な不連続性をモデル化する方法を示す。
次に, 単一形状のフィッティング, 生成モデリング, 単一像の3次元再構成など, DDFを応用した。
論文 参考訳(メタデータ) (2024-04-13T21:02:49Z) - Ghost on the Shell: An Expressive Representation of General 3D Shapes [97.76840585617907]
リアルな素材と照明で高速な物理ベースのレンダリングを可能にするので、メッシュは魅力的だ。
近年の3次元形状の再構成と統計的モデリングの研究は、メッシュをトポロジカルに非フレキシブルであると批判している。
我々は水密面上の多様体符号距離場を定義することにより開曲面をパラメータ化する。
G-Shellは、非水密メッシュ再構築および生成タスクにおける最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-10-23T17:59:52Z) - Structural Multiplane Image: Bridging Neural View Synthesis and 3D
Reconstruction [39.89856628467095]
平面構造が3次元シーンを簡潔に近似する構造的MPI(S-MPI)を導入する。
S-MPIを適用するという直感と要求にもかかわらず、RGBA層と平面の両方の高忠実度近似のような大きな課題が導入されている。
提案手法は,従来のMPIを用いたビュー合成法と平面再構成法より優れていた。
論文 参考訳(メタデータ) (2023-03-10T14:18:40Z) - UCLID-Net: Single View Reconstruction in Object Space [60.046383053211215]
三次元潜在空間を保存する幾何学的空間の構築は,オブジェクト座標空間における大域的形状規則性と局所的推論を同時に学習する上で有効であることを示す。
ベンチマーク目的でよく使用されるShapeNet合成画像と、我々のアプローチが最先端の画像より優れている実世界の画像の両方を実証する。
論文 参考訳(メタデータ) (2020-06-06T09:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。