論文の概要: Pixal3D: Pixel-Aligned 3D Generation from Images
- arxiv url: http://arxiv.org/abs/2605.10922v1
- Date: Mon, 11 May 2026 17:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.055687
- Title: Pixal3D: Pixel-Aligned 3D Generation from Images
- Title(参考訳): Pixal3D:画像から3D画像を生成する
- Authors: Dong-Yang Li, Wang Zhao, Yuxin Chen, Wenbo Hu, Meng-Hao Guo, Fang-Lue Zhang, Ying Shan, Shi-Min Hu,
- Abstract要約: Pixal3Dは、画像から高忠実度3Dアセットを作成するためのピクセル対応の3D生成パラダイムである。
Pixal3Dはスケーラブルで,高品質な3Dアセットを製造可能であることを示す。
また,画像から高忠実でオブジェクト分離された3Dシーンを生成するモジュールパイプラインを提案する。
- 参考スコア(独自算出の注目度): 77.70532094905573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in 3D generative models have rapidly improved image-to-3D synthesis quality, enabling higher-resolution geometry and more realistic appearance. Yet fidelity, which measures pixel-level faithfulness of the generated 3D asset to the input image, still remains a central bottleneck. We argue this stems from an implicit 2D-3D correspondence issue: most 3D-native generators synthesize shape in canonical space and inject image cues via attention, leaving pixel-to-3D associations ambiguous. To tackle this issue, we draw inspiration from 3D reconstruction and propose Pixal3D, a pixel-aligned 3D generation paradigm for high-fidelity 3D asset creation from images. Instead of generating in a canonical pose, Pixal3D directly generates 3D in a pixel-aligned way, consistent with the input view. To enable this, we introduce a pixel back-projection conditioning scheme that explicitly lifts multi-scale image features into a 3D feature volume, establishing direct pixel-to-3D correspondence without ambiguity. We show that Pixal3D is not only scalable and capable of producing high-quality 3D assets, but also substantially improves fidelity, approaching the fidelity level of reconstruction. Furthermore, Pixal3D naturally extends to multi-view generation by aggregating back-projected feature volumes across views. Finally, we show pixel-aligned generation benefits scene synthesis, and present a modular pipeline that produces high-fidelity, object-separated 3D scenes from images. Pixal3D for the first time demonstrates 3D-native pixel-aligned generation at scale, and provides a new inspiring way towards high-fidelity 3D generation of object or scene from single or multi-view images. Project page: https://ldyang694.github.io/projects/pixal3d/
- Abstract(参考訳): 3D生成モデルの最近の進歩は、画像から3D合成の品質を急速に改善し、より高解像度な幾何学とよりリアルな外観を可能にした。
しかし、入力画像に対する生成した3Dアセットのピクセルレベルの忠実度を測定するフィデリティは、依然として中心的なボトルネックとなっている。
ほとんどの3Dネイティブジェネレータは、標準空間で形状を合成し、注意を通してイメージキューを注入し、ピクセルから3Dの関連性は曖昧である。
この問題に対処するため,画像からの高忠実度3Dアセット生成のための画素対応3D生成パラダイムであるPixal3Dを提案する。
標準的なポーズで生成する代わりに、Pixal3Dは、入力ビューと一致したピクセルアラインな方法で3Dを直接生成する。
これを実現するために,マルチスケール画像の特徴を3次元特徴量に明示的に持ち上げる画素バックプロジェクション・コンディショニング方式を導入し,曖昧さを伴わない直接画素対3次元対応を実現する。
Pixal3Dはスケーラブルで高品質な3Dアセットを生産できるだけでなく、忠実度も大幅に向上し、復元の忠実度レベルに近づいた。
さらにPixal3Dは、ビュー全体でバックプロジェクションされた機能ボリュームを集約することで、自然にマルチビュー生成に拡張する。
最後に,画像から高忠実でオブジェクト分離された3Dシーンを生成するモジュールパイプラインを提案する。
Pixal3Dは初めて、大規模に3Dネイティブなピクセルアライメント生成を実証し、単一または複数ビューの画像から高忠実な3Dオブジェクトやシーンを生成するための、新たなインスピレーションを与える。
プロジェクトページ: https://ldyang694.github.io/projects/pixal3d/
関連論文リスト
- Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer [26.375689838055774]
Direct3Dは、Wildの入力画像にスケーラブルなネイティブな3D生成モデルである。
提案手法は, 直接3次元変分オートエンコーダ(D3D-VAE)と直接3次元拡散変換器(D3D-DiT)の2成分からなる。
論文 参考訳(メタデータ) (2024-05-23T17:49:37Z) - What You See is What You GAN: Rendering Every Pixel for High-Fidelity
Geometry in 3D GANs [82.3936309001633]
3D-aware Generative Adversarial Networks (GANs) は,マルチビュー一貫性画像と3Dジオメトリを生成する学習において,顕著な進歩を見せている。
しかし、ボリュームレンダリングにおける高密度サンプリングの大幅なメモリと計算コストにより、3D GANはパッチベースのトレーニングを採用するか、後処理の2Dスーパーレゾリューションで低解像度レンダリングを採用することを余儀なくされた。
ニューラルボリュームレンダリングをネイティブ2次元画像の高解像度化に拡張する手法を提案する。
論文 参考訳(メタデータ) (2024-01-04T18:50:38Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。