論文の概要: Leveling3D: Leveling Up 3D Reconstruction with Feed-Forward 3D Gaussian Splatting and Geometry-Aware Generation
- arxiv url: http://arxiv.org/abs/2603.16211v1
- Date: Tue, 17 Mar 2026 07:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.155668
- Title: Leveling3D: Leveling Up 3D Reconstruction with Feed-Forward 3D Gaussian Splatting and Geometry-Aware Generation
- Title(参考訳): Leveling 3D: Leveling up 3D Reconstruction with Feed-forward 3D Gaussian Splatting and Geometry-Aware Generation
- Authors: Yiming Huang, Baixiang Huang, Beilei Cui, Chi Kit Ng, Long Bai, Hongliang Ren,
- Abstract要約: 本稿では, フィードフォワード3次元再構成と幾何一貫性生成を統合した新しいパイプラインであるLeveling3Dを紹介する。
我々は,新規ビュー合成や深度推定などのタスクを含む,公開データセット上でのSOTA性能を実現する。
- 参考スコア(独自算出の注目度): 15.735997729565987
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Feed-forward 3D reconstruction has revolutionized 3D vision, providing a powerful baseline for downstream tasks such as novel-view synthesis with 3D Gaussian Splatting. Previous works explore fixing the corrupted rendering results with a diffusion model. However, they lack geometric concern and fail at filling the missing area on the extrapolated view. In this work, we introduce Leveling3D, a novel pipeline that integrates feed-forward 3D reconstruction with geometrical-consistent generation to enable holistic simultaneous reconstruction and generation. We propose a geometry-aware leveling adapter, a lightweight technique that aligns internal knowledge in the diffusion model with the geometry prior from the feed-forward model. The leveling adapter enables generation on the artifact area of the extrapolated novel views caused by underconstrained regions of the 3D representation. Specifically, to learn a more diverse distributed generation, we introduce the palette filtering strategy for training, and a test-time masking refinement to prevent messy boundaries along the fixing regions. More importantly, the enhanced extrapolated novel views from Leveling3D could be used as the inputs for feed-forward 3DGS, leveling up the 3D reconstruction. We achieve SOTA performance on public datasets, including tasks such as novel-view synthesis and depth estimation.
- Abstract(参考訳): フィードフォワード3D再構成は3D視覚に革命をもたらし、3Dガウススプラッティングを用いたノベルビュー合成のような下流タスクの強力なベースラインを提供する。
従来の研究は、拡散モデルを用いて、劣化したレンダリング結果の修正を検討していた。
しかし、幾何学的な懸念がなく、外挿されたビューの欠落した領域を埋めることに失敗した。
本研究では, フィードフォワード3次元再構成と幾何整合生成を統合し, 全体的同時再構成と生成を可能にする新しいパイプラインであるLeveling3Dを紹介する。
本稿では,拡散モデルにおける内部知識と,フィードフォワードモデルに先行する幾何学的知識を整合させる軽量な手法である幾何対応レベリングアダプタを提案する。
レベル付けアダプタは、3D表現の制約の少ない領域によって引き起こされる外挿された新規ビューのアーティファクト領域の生成を可能にする。
具体的には、より多様な分散世代を学習するために、トレーニングのためのパレットフィルタリング戦略と、固定領域の乱れを防止するためのテストタイムマスキング改善を導入する。
さらに重要なことに、Leveling3Dの強化された外挿された新しいビューはフィードフォワード3DGSの入力として使用することができ、3D再構成のレベルアップを実現した。
我々は,新規ビュー合成や深度推定などのタスクを含む,公開データセット上でのSOTA性能を実現する。
関連論文リスト
- EA3D: Online Open-World 3D Object Extraction from Streaming Videos [55.48835711373918]
オープンワールド3Dオブジェクト抽出のための統合オンラインフレームワークであるExtractAnything3D(EA3D)を提案する。
ストリーミングビデオが与えられると、EA3Dは視覚言語と2D視覚基盤エンコーダを使用して各フレームを動的に解釈し、オブジェクトレベルの知識を抽出する。
リカレントな共同最適化モジュールは、モデルの関心領域への注意を向け、幾何学的再構成と意味的理解の両面を同時に強化する。
論文 参考訳(メタデータ) (2025-10-29T03:56:41Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models [65.90387371072413]
本稿では,3次元再構成と新規ビュー合成を向上する新しいパイプラインであるDifix3D+を紹介する。
このアプローチのコアとなるのは、レンダリングされた新規ビューにおけるアーティファクトの強化と削除のためにトレーニングされた、単一ステップのイメージ拡散モデルであるDifixです。
論文 参考訳(メタデータ) (2025-03-03T17:58:33Z) - TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - Self-supervised Learning for Enhancing Geometrical Modeling in 3D-Aware
Generative Adversarial Network [42.16520614686877]
3D-GANは、メッシュの不完全性や穴などの3D幾何学的モデリングにおいて、アーティファクトを示す。
これらの欠点は、主にアノテーション付き3Dデータの可用性が制限されているためである。
本稿では,任意の3D-GANの補助的損失を補うセルフ・スーパーバイザード・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T04:55:33Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Learning Neural Radiance Fields from Multi-View Geometry [1.1011268090482573]
画像に基づく3次元再構成のために,多視点幾何アルゴリズムとニューラルレージアンス場(NeRF)を組み合わせたMVG-NeRF(MVG-NeRF)というフレームワークを提案する。
NeRFは暗黙の3D表現の分野に革命をもたらした。
論文 参考訳(メタデータ) (2022-10-24T08:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。