論文の概要: CylinderPlane: Nested Cylinder Representation for 3D-aware Image Generation
- arxiv url: http://arxiv.org/abs/2507.15606v1
- Date: Mon, 21 Jul 2025 13:28:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.413997
- Title: CylinderPlane: Nested Cylinder Representation for 3D-aware Image Generation
- Title(参考訳): CylinderPlane:3次元画像生成のためのネステッドシリンダ表現
- Authors: Ru Jia, Xiaozhuang Ma, Jianji Wang, Nanning Zheng,
- Abstract要約: CylinderPlaneはCylindrical Coordinate Systemに基づく新しい暗黙の表現である。
私たちの表現は暗黙のレンダリング手法に非依存であり、任意のニューラルネットワークレンダリングパイプラインに簡単に統合することができます。
- 参考スコア(独自算出の注目度): 30.123631491028352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the proposal of the Tri-plane representation has advanced the development of the 3D-aware image generative models, problems rooted in its inherent structure, such as multi-face artifacts caused by sharing the same features in symmetric regions, limit its ability to generate 360$^\circ$ view images. In this paper, we propose CylinderPlane, a novel implicit representation based on Cylindrical Coordinate System, to eliminate the feature ambiguity issue and ensure multi-view consistency in 360$^\circ$. Different from the inevitable feature entanglement in Cartesian coordinate-based Tri-plane representation, the cylindrical coordinate system explicitly separates features at different angles, allowing our cylindrical representation possible to achieve high-quality, artifacts-free 360$^\circ$ image synthesis. We further introduce the nested cylinder representation that composites multiple cylinders at different scales, thereby enabling the model more adaptable to complex geometry and varying resolutions. The combination of cylinders with different resolutions can effectively capture more critical locations and multi-scale features, greatly facilitates fine detail learning and robustness to different resolutions. Moreover, our representation is agnostic to implicit rendering methods and can be easily integrated into any neural rendering pipeline. Extensive experiments on both synthetic dataset and unstructured in-the-wild images demonstrate that our proposed representation achieves superior performance over previous methods.
- Abstract(参考訳): Tri-plane表現の提案は、3D対応画像生成モデルの開発を進んでいるが、対称領域で同じ特徴を共有することで生じる多面的アーティファクトなどの固有の構造に根ざした問題は、360$^\circ$画像を生成する能力を制限する。
本稿では,Cylindrical Coordinate Systemに基づく新しい暗黙表現CylinderPlaneを提案する。
カルト座標に基づくTri平面表現の必然的特徴絡みと異なり、円筒座標系は明確に異なる角度で特徴を分離し、高品質でアーチファクトのない360$^\circ$画像合成を可能にする。
さらに、複数のシリンダーを異なるスケールで合成するネスト型シリンダー表現を導入し、より複雑な幾何学や様々な解像度に適応できるモデルを実現する。
異なる解像度のシリンダーと異なる解像度のシリンダーの組み合わせは、より重要な位置とマルチスケールの特徴を効果的に捉え、異なる解像度に対する詳細な学習と堅牢性を大幅に促進する。
さらに、我々の表現は暗黙のレンダリング手法に非依存であり、任意のニューラルネットワークレンダリングパイプラインに容易に統合できる。
合成データセットと非構造化画像の両方に対する大規模な実験により,提案した表現が従来手法よりも優れた性能を示した。
関連論文リスト
- QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction [49.75084732129701]
3D占有予測は、堅牢な自動運転システムにとって不可欠である。
既存の手法のほとんどは、密度の高いボクセルベースのシーン表現を使用している。
効率的な3次元占有予測のためのスーパークワッドリックモデルであるQuadricFormerを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:59:45Z) - LinPrim: Linear Primitives for Differentiable Volumetric Rendering [53.780682194322225]
線形プリミティブに基づく2つの新しいシーン表現を導入する。
我々はGPU上で効率的に動作する異なるオクタライザを提案する。
我々は最先端の手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2025-01-27T18:49:38Z) - F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。
画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。
また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文 参考訳(メタデータ) (2025-01-12T04:44:44Z) - StdGEN: Semantic-Decomposed 3D Character Generation from Single Images [28.302030751098354]
StdGENは、単一の画像から意味的に高品質な3D文字を生成する革新的なパイプラインである。
3分で体、衣服、毛髪などの分離した意味成分を持つ複雑な3D文字を生成する。
StdGENは、使えるセマンティック分解された3D文字を提供し、幅広いアプリケーションに対して柔軟なカスタマイズを可能にする。
論文 参考訳(メタデータ) (2024-11-08T17:54:18Z) - VortSDF: 3D Modeling with Centroidal Voronoi Tesselation on Signed Distance Field [5.573454319150408]
四面体グリッド上での3次元形状特性を推定するために,明示的なSDFフィールドと浅いカラーネットワークを組み合わせた体積最適化フレームワークを提案する。
Chamfer統計による実験結果は、オブジェクト、オープンシーン、人間などの様々なシナリオにおいて、前例のない復元品質でこのアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T09:46:39Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - DiFT: Differentiable Differential Feature Transform for Multi-View
Stereo [16.47413993267985]
我々は、回転運動で密にキャプチャされた画像のスタックから、各ビューで空間的に識別され、図形ごとに不変な画像へと、微分キューを変換することを学ぶ。
これらの低レベル機能は、既存のマルチビューステレオ技術に直接供給し、拡張された3D再構成を行うことができる。
論文 参考訳(メタデータ) (2022-03-16T07:12:46Z) - Object-Centric Multi-View Aggregation [86.94544275235454]
本稿では,オブジェクトのスパースなビュー集合を集約して,半単純3次元表現を容積特徴格子の形で計算する手法を提案する。
我々のアプローチの鍵となるのは、カメラのポーズを明示することなく、ビューを持ち上げることができるオブジェクト中心の標準3D座標システムである。
画素から標準座標系への対称対応マッピングの計算により、未知の領域への情報伝達がより良くなることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:38:31Z) - GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis [43.4859484191223]
近年,単一シーンの新規なビュー合成に成功している放射場生成モデルを提案する。
マルチスケールのパッチベース判別器を導入し,非姿勢の2次元画像からモデルを訓練しながら高解像度画像の合成を実演する。
論文 参考訳(メタデータ) (2020-07-05T20:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。