論文の概要: Repurposing Geometric Foundation Models for Multi-view Diffusion
- arxiv url: http://arxiv.org/abs/2603.22275v1
- Date: Mon, 23 Mar 2026 17:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.832834
- Title: Repurposing Geometric Foundation Models for Multi-view Diffusion
- Title(参考訳): 多視点拡散のための幾何学的基礎モデルの再構築
- Authors: Wooseok Jang, Seonghu Jeon, Jisang Han, Jinhyeok Choi, Minkyung Kwon, Seungryong Kim, Saining Xie, Sainan Liu,
- Abstract要約: 本稿では,幾何学的基礎モデルの幾何学的一貫した特徴空間を多視点拡散の潜在空間として再利用するフレームワークを提案する。
実験の結果,GADは2次元画像品質と3次元整合性の測定値において,VAEとRAEのどちらよりも優れており,VAEの潜伏空間に比べて4.4倍以上のトレーニングが加速していることがわかった。
- 参考スコア(独自算出の注目度): 54.65956050951508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advances in generative latent spaces have driven substantial progress in single-image generation, the optimal latent space for novel view synthesis (NVS) remains largely unexplored. In particular, NVS requires geometrically consistent generation across viewpoints, but existing approaches typically operate in a view-independent VAE latent space. In this paper, we propose Geometric Latent Diffusion (GLD), a framework that repurposes the geometrically consistent feature space of geometric foundation models as the latent space for multi-view diffusion. We show that these features not only support high-fidelity RGB reconstruction but also encode strong cross-view geometric correspondences, providing a well-suited latent space for NVS. Our experiments demonstrate that GLD outperforms both VAE and RAE on 2D image quality and 3D consistency metrics, while accelerating training by more than 4.4x compared to the VAE latent space. Notably, GLD remains competitive with state-of-the-art methods that leverage large-scale text-to-image pretraining, despite training its diffusion model from scratch without such generative pretraining.
- Abstract(参考訳): 最近の生成潜在空間の進歩は、単一画像生成の大幅な進歩をもたらしたが、新規ビュー合成(NVS)のための最適潜在空間は、ほとんど探索されていない。
特に、NVSは視点間で幾何学的に一貫した生成を必要とするが、既存のアプローチは通常、ビュー非依存のVAE潜在空間で動作する。
本稿では,幾何学的基礎モデルの幾何学的一貫した特徴空間を多視点拡散の潜在空間として活用するフレームワークであるGeometric Latent Diffusion (GLD)を提案する。
これらの特徴は、高忠実度RGB再構成だけでなく、強力なクロスビュー幾何対応を符号化し、NVSに適した潜在空間を提供する。
実験の結果,GADは2次元画像品質と3次元整合性の測定値において,VAEとRAEのどちらよりも優れており,VAEの潜伏空間に比べて4.4倍以上のトレーニングが加速していることがわかった。
特に、GLDは、大規模なテキストから画像への事前学習を利用する最先端の手法と競合し続けている。
関連論文リスト
- TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity [126.89088014048001]
本研究では,高空間忠実度を実現する画像から3次元のマルチインスタンス生成のためのトレーニングフリーフレームワークを提案する。
具体的には、まずインスタンス認識分離誘導(ISG)モジュールを導入し、インスタンスのアンタングル化を容易にする。
次に、空間適応型幾何安定化更新(SGU)モジュールを考案し、インスタンスの幾何学的特性の保存を促進する。
論文 参考訳(メタデータ) (2026-03-02T02:10:28Z) - Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion [57.09673862519791]
本稿では,幾何学と外観のモデリングを結合潜在表現に統一する新しいフレームワークである textbfJGA-LBD を紹介する。
実験により、JGA-LBDは、幾何学的忠実度と外観品質の両方の観点から、現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-01T12:48:56Z) - SVRecon: Sparse Voxel Rasterization for Surface Reconstruction [60.92372415355283]
我々は最近提案されたスパースボキセル化パラダイムをSVReconの統合により高忠実度表面再構成の課題に拡張する。
本手法は, 常に高速な収束を保ちながら, 強い復元精度を実現する。
論文 参考訳(メタデータ) (2025-11-21T16:32:01Z) - Gesplat: Robust Pose-Free 3D Reconstruction via Geometry-Guided Gaussian Splatting [21.952325954391508]
本稿では、3DGSベースのフレームワークであるGesplatを紹介し、ロバストな新しいビュー合成と、未提示のスパース画像からの幾何的に一貫した再構成を可能にする。
提案手法は,他のポーズフリー手法と比較して,前方および大規模の複雑なデータセット上でより堅牢な性能を実現する。
論文 参考訳(メタデータ) (2025-10-11T08:13:46Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - MonoGSDF: Exploring Monocular Geometric Cues for Gaussian Splatting-Guided Implicit Surface Reconstruction [86.87464903285208]
高品質な再構成のための神経信号距離場(SDF)とプリミティブを結合する新しい手法であるMonoGSDFを紹介する。
任意のスケールのシーンを扱うために,ロバストな一般化のためのスケーリング戦略を提案する。
実世界のデータセットの実験は、効率を保ちながら、以前の方法よりも優れています。
論文 参考訳(メタデータ) (2024-11-25T20:07:07Z) - Few-shot Learning as Cluster-induced Voronoi Diagrams: A Geometric
Approach [12.382578792491747]
CIVD(Cluster-induced Voronoi Diagram)は、数ショット学習の精度と堅牢性を改善する。
CIVDベースのワークフローにより、mini-ImageNet、CUB、hered-ImagenNetデータセット上で、最先端の新たな結果が得られます。
論文 参考訳(メタデータ) (2022-02-05T02:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。