論文の概要: Geometry Meets Light: Leveraging Geometric Priors for Universal Photometric Stereo under Limited Multi-Illumination Cues
- arxiv url: http://arxiv.org/abs/2511.13015v1
- Date: Mon, 17 Nov 2025 06:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.710071
- Title: Geometry Meets Light: Leveraging Geometric Priors for Universal Photometric Stereo under Limited Multi-Illumination Cues
- Title(参考訳): 光に出会う幾何学:マルチイルミネーションキュー下でのユニバーサル測光ステレオの幾何学的先行性
- Authors: King-Man Tam, Satoshi Ikehata, Yuta Asano, Zhaoyi An, Rei Kawakami,
- Abstract要約: GeoUniPS(GeoUniPS)は、合成監督と高レベルの幾何学的先行性を統合する、普遍的な測光ステレオネットワークである。
空間的に異なる視野方向の学習を可能にするために,現実的な視点投影を伴うPS-Perpデータセットを提案する。
- 参考スコア(独自算出の注目度): 24.171649472398514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal Photometric Stereo is a promising approach for recovering surface normals without strict lighting assumptions. However, it struggles when multi-illumination cues are unreliable, such as under biased lighting or in shadows or self-occluded regions of complex in-the-wild scenes. We propose GeoUniPS, a universal photometric stereo network that integrates synthetic supervision with high-level geometric priors from large-scale 3D reconstruction models pretrained on massive in-the-wild data. Our key insight is that these 3D reconstruction models serve as visual-geometry foundation models, inherently encoding rich geometric knowledge of real scenes. To leverage this, we design a Light-Geometry Dual-Branch Encoder that extracts both multi-illumination cues and geometric priors from the frozen 3D reconstruction model. We also address the limitations of the conventional orthographic projection assumption by introducing the PS-Perp dataset with realistic perspective projection to enable learning of spatially varying view directions. Extensive experiments demonstrate that GeoUniPS delivers state-of-the-arts performance across multiple datasets, both quantitatively and qualitatively, especially in the complex in-the-wild scenes.
- Abstract(参考訳): Universal Photometric Stereoは、厳密な照明仮定なしで表面の正常を回復するための有望なアプローチである。
しかし、光の偏りや影、複雑な風景の自己隠蔽領域など、多照度キューが信頼できない場合に苦労する。
我々は,大規模な3次元再構成モデルから合成監督を高次幾何学的先行情報と統合した汎用測光ステレオネットワークGeoUniPSを提案する。
我々の重要な洞察は、これらの3次元再構成モデルは視覚幾何学の基礎モデルとして機能し、本質的には実シーンの豊富な幾何学的知識を符号化しているということである。
これを活用するために、凍結した3次元再構成モデルから多重照明キューと幾何先行の両方を抽出する光ジオメトリデュアルブランチエンコーダを設計する。
また,PS-Perpデータセットに現実的な視点投影を導入し,空間的に異なる視点方向の学習を可能にすることによって,従来の正弦波投影仮定の限界にも対処する。
大規模な実験により、GeoUniPSは複数のデータセット、特に複雑なインザワイルドシーンにおいて、定量的かつ質的に、最先端のパフォーマンスを提供することが示された。
関連論文リスト
- WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting [51.69408870574092]
汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-12T17:59:09Z) - Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - Generalizable and Relightable Gaussian Splatting for Human Novel View Synthesis [49.67420486373202]
GRGSは、多彩な照明条件下での高忠実なヒューマン・ノベル・ビュー・シンセサイザーのための一般的な3Dガウスのフレームワークである。
我々は, 精密深度および表面の正常度を予測するために, 合成依存データに基づいて学習した照明対応幾何微細化(LGR)モジュールを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:59:47Z) - IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images [45.66479596827045]
我々は,幾何誘導多視点合成手法により,幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。
単一視点画像に対する多視点監視の欠如に対処するために,深度認識型トレーニングアプローチを設計する。
論文 参考訳(メタデータ) (2024-04-11T04:58:18Z) - Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。
まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。
これらの深度マップは、異なるビューを粗く整列するために使用される。
本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T21:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。