論文の概要: Dens3R: A Foundation Model for 3D Geometry Prediction
- arxiv url: http://arxiv.org/abs/2507.16290v1
- Date: Tue, 22 Jul 2025 07:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.003034
- Title: Dens3R: A Foundation Model for 3D Geometry Prediction
- Title(参考訳): Dens3R:3次元幾何学予測の基礎モデル
- Authors: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lyu, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lyu,
- Abstract要約: Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
- 参考スコア(独自算出の注目度): 44.13431776180547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in dense 3D reconstruction have led to significant progress, yet achieving accurate unified geometric prediction remains a major challenge. Most existing methods are limited to predicting a single geometry quantity from input images. However, geometric quantities such as depth, surface normals, and point maps are inherently correlated, and estimating them in isolation often fails to ensure consistency, thereby limiting both accuracy and practical applicability. This motivates us to explore a unified framework that explicitly models the structural coupling among different geometric properties to enable joint regression. In this paper, we present Dens3R, a 3D foundation model designed for joint geometric dense prediction and adaptable to a wide range of downstream tasks. Dens3R adopts a two-stage training framework to progressively build a pointmap representation that is both generalizable and intrinsically invariant. Specifically, we design a lightweight shared encoder-decoder backbone and introduce position-interpolated rotary positional encoding to maintain expressive power while enhancing robustness to high-resolution inputs. By integrating image-pair matching features with intrinsic invariance modeling, Dens3R accurately regresses multiple geometric quantities such as surface normals and depth, achieving consistent geometry perception from single-view to multi-view inputs. Additionally, we propose a post-processing pipeline that supports geometrically consistent multi-view inference. Extensive experiments demonstrate the superior performance of Dens3R across various dense 3D prediction tasks and highlight its potential for broader applications.
- Abstract(参考訳): 近年の高密度3次元再構成の進歩は大きな進歩をもたらしたが、正確な統一幾何予測を実現することは大きな課題である。
既存の手法のほとんどは、入力画像から1つの幾何学量の予測に限られている。
しかし、深さ、表面の正規度、点マップなどの幾何学的量には本質的に相関があり、それらを独立に推定することは一貫性を確保するのに失敗し、精度と実用性の両方を制限する。
これは、結合回帰を可能にするために、異なる幾何学的性質間の構造的結合を明示的にモデル化する統一的なフレームワークを探求する動機となっている。
本稿では,3次元基礎モデルであるDens3Rについて述べる。
Dens3Rは2段階のトレーニングフレームワークを採用し、一般化可能かつ本質的に不変なポイントマップ表現を段階的に構築する。
具体的には、軽量な共有エンコーダ/デコーダのバックボーンを設計し、高解像度入力に対するロバスト性を高めつつ、表現力を維持するために位置補間回転位置符号化を導入する。
画像対マッチング機能と内在的不変性モデリングを統合することにより、Dens3Rは表面の正規度や深さなどの幾何量も正確に回帰し、一様視から多視点入力への一貫した幾何学的認識を実現する。
さらに,幾何学的に一貫した多視点推論をサポートする後処理パイプラインを提案する。
広範囲な実験は、様々な密集した3D予測タスクにおけるDens3Rの優れた性能を示し、より広範な応用の可能性を強調している。
関連論文リスト
- Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging [15.36983068580743]
Hi3DGenは、画像から通常のブリッジを通して高忠実度3D幾何を生成するための新しいフレームワークである。
本研究は,中間表現として正規写像を利用することにより,画像から高忠実度3次元幾何を生成するための新たな方向を提供する。
論文 参考訳(メタデータ) (2025-03-28T08:39:20Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Multi-View Reconstruction using Signed Ray Distance Functions (SRDF) [22.75986869918975]
本稿では,体積の新たな形状表現に基づく新しい計算手法について検討する。
この表現に関連する形状エネルギーは、与えられたカラー画像の3次元形状を評価し、外観予測を必要としない。
実際には、カメラ線に沿った深さによってパラメータ化される符号付き距離に基づいて、暗黙の形状表現であるSRDFを提案する。
論文 参考訳(メタデータ) (2022-08-31T19:32:17Z) - H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction [27.66008315400462]
表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。
我々はこれらの制限を,数発のフル3次元頭部再構成の特定の問題に対処する。
暗黙の表現を用いて,数千個の不完全な生スキャンから3次元頭部形状モデルを学習する。
論文 参考訳(メタデータ) (2021-07-26T23:04:18Z) - A Novel 3D-UNet Deep Learning Framework Based on High-Dimensional
Bilateral Grid for Edge Consistent Single Image Depth Estimation [0.45880283710344055]
3DBG-UNetと呼ばれるバイラテラルグリッドベースの3D畳み込みニューラルネットワークは、UNetsでコンパクトな3D二元格子を符号化することで、高次元の特徴空間をパラメータ化する。
別の新しい3DBGES-UNetモデルは、3DBG-UNetを統合して1つのカラービューの正確な深度マップを推測するものである。
論文 参考訳(メタデータ) (2021-05-21T04:53:14Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。