論文の概要: GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2512.25073v1
- Date: Wed, 31 Dec 2025 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.755792
- Title: GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction
- Title(参考訳): GaMO:スパースビュー3次元再構成のための幾何学的多視点拡散露光
- Authors: Yi-Chuan Huang, Hao-Jen Chien, Chin-Yang Lin, Ying-Huan Chen, Yu-Lun Liu,
- Abstract要約: GaMOは、マルチビューのアウトペイントを通じてスパースビューの再構築を再構築するフレームワークである。
本手法では,マルチビュー・コンディショニングとジオメトリ・アウェア・デノナイズ・ストラテジーをゼロショット方式で採用する。
- 参考スコア(独自算出の注目度): 6.362401262063673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in 3D reconstruction have achieved remarkable progress in high-quality scene capture from dense multi-view imagery, yet struggle when input views are limited. Various approaches, including regularization techniques, semantic priors, and geometric constraints, have been implemented to address this challenge. Latest diffusion-based methods have demonstrated substantial improvements by generating novel views from new camera poses to augment training data, surpassing earlier regularization and prior-based techniques. Despite this progress, we identify three critical limitations in these state-of-the-art approaches: inadequate coverage beyond known view peripheries, geometric inconsistencies across generated views, and computationally expensive pipelines. We introduce GaMO (Geometry-aware Multi-view Outpainter), a framework that reformulates sparse-view reconstruction through multi-view outpainting. Instead of generating new viewpoints, GaMO expands the field of view from existing camera poses, which inherently preserves geometric consistency while providing broader scene coverage. Our approach employs multi-view conditioning and geometry-aware denoising strategies in a zero-shot manner without training. Extensive experiments on Replica and ScanNet++ demonstrate state-of-the-art reconstruction quality across 3, 6, and 9 input views, outperforming prior methods in PSNR and LPIPS, while achieving a $25\times$ speedup over SOTA diffusion-based methods with processing time under 10 minutes. Project page: https://yichuanh.github.io/GaMO/
- Abstract(参考訳): 近年の3次元再構成の進歩は、高精細な多視点画像から高画質のシーンを撮影する上で顕著な進歩を遂げているが、入力ビューが限定される場合には困難である。
この課題に対処するために、正規化技術、セマンティックプリエント、幾何学的制約を含む様々なアプローチが実装されている。
最新の拡散型手法は、新しいカメラのポーズから新しいビューを生成し、トレーニングデータを増強し、初期の正規化や事前ベース技術を上回ることで、大幅に改善されている。
この進歩にもかかわらず、これらの最先端アプローチにおける3つの重要な限界は、既知のビュー周辺範囲を超えてのカバレッジの不足、生成されたビュー間の幾何学的不整合、計算コストの高いパイプラインである。
GaMO(Geometry-aware Multi-view Outpainter)は,マルチビュー・アウトパインティングによるスパースビューの再構築を行うフレームワークである。
新しい視点を生成する代わりに、GaMOは既存のカメラのポーズから視野を広げる。
本手法では,マルチビュー・コンディショニングとジオメトリ・アウェア・デノナイズ・ストラテジーをゼロショット方式で採用する。
ReplicaとScanNet++の大規模な実験では、PSNRとLPIPSの先行手法よりも優れ、10分未満の処理時間でSOTA拡散に基づくメソッドよりも25\times$のスピードアップを達成した。
プロジェクトページ:https://yichuanh.github.io/GaMO/
関連論文リスト
- G4Splat: Geometry-Guided Gaussian Splatting with Generative Prior [53.762256749551284]
我々は,3次元シーン再構成を効果的に活用するための基本的な前提条件として,正確な幾何学を同定する。
生成パイプライン全体にこの幾何学的ガイダンスを導入し、可視性マスク推定を改善し、新しいビュー選択をガイドし、ビデオ拡散モデルに着色した場合の多視点一貫性を向上させる。
本手法は,屋内および屋外の両方のシナリオにおいて,高い一般化性を有するシングルビュー入力とアンポーズ映像を自然にサポートする。
論文 参考訳(メタデータ) (2025-10-14T03:06:28Z) - ExploreGS: Explorable 3D Scene Reconstruction with Virtual Camera Samplings and Diffusion Priors [37.455535904703204]
本稿では3DGSをベースとしたパイプラインを提案し,再現性を高めるための追加のトレーニングビューを生成する。
細調整された3Dガウスの視界は、再建の質を著しく向上させる。
実験により,本手法は既存の3DGS法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-08T05:01:17Z) - Zero-P-to-3: Zero-Shot Partial-View Images to 3D Object [55.93553895520324]
そこで本研究では,局所的な高密度観測と複数ソースの事前情報を統合した学習自由手法を提案する。
本手法では, DDIMサンプリングにおいて, これらの先行情報を効果的に整合させる融合方式を導入し, 多視点一貫した画像を生成し, 見えない視界を監督する。
論文 参考訳(メタデータ) (2025-05-29T03:51:37Z) - ExScene: Free-View 3D Scene Reconstruction with Gaussian Splatting from a Single Image [4.366356163044466]
既存の方法は、単一視点からの視野が狭い低一貫性の3Dシーンを再構成するためにしばしば制限される。
任意の単視点画像から没入型3Dシーンを再構成する2段階パイプラインであるExSceneを提案する。
ExSceneは単一ビュー入力のみを使用して一貫した没入的なシーン再構築を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:33:22Z) - Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [64.71091831762214]
完全な形状と詳細なテクスチャを持つ3次元シーンの分解的再構成は、下流の応用に興味深い。
近年のアプローチでは、この問題に対処するために意味的あるいは幾何学的正則化が取り入れられているが、制約の少ない領域では著しく劣化している。
本稿では,SDS(Score Distillation Sampling)の形で拡散先行値を用いたDP-Reconを提案し,新しい視点下で個々の物体の神経表現を最適化する。
論文 参考訳(メタデータ) (2025-03-19T02:11:31Z) - Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。
このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。
複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文 参考訳(メタデータ) (2025-01-30T23:43:06Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Solving Inverse Problems with NerfGANs [88.24518907451868]
我々は、NeRF型生成モデルを用いて、逆問題を解決するための新しいフレームワークを提案する。
遅延空間を鼻で最適化することは、アーティファクトや、新しいビューレンダリングに繋がることを示す。
本研究では,より優れた3次元表面を得るための新しい放射場正規化手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T17:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。