論文の概要: Monocular Normal Estimation via Shading Sequence Estimation
- arxiv url: http://arxiv.org/abs/2602.09929v1
- Date: Tue, 10 Feb 2026 15:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.66767
- Title: Monocular Normal Estimation via Shading Sequence Estimation
- Title(参考訳): シェーディングシーケンス推定による単分子正規推定
- Authors: Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai,
- Abstract要約: 単分子正規推定は、任意の光の下で物体の1つのRGB画像から正規写像を推定することを目的としている。
既存の手法は、通常の地図を直接予測するディープモデルに依存している。
シェーディングシーケンス推定として正規推定を再構成する新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 48.25729321130464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular normal estimation aims to estimate the normal map from a single RGB image of an object under arbitrary lights. Existing methods rely on deep models to directly predict normal maps. However, they often suffer from 3D misalignment: while the estimated normal maps may appear to have a correct appearance, the reconstructed surfaces often fail to align with the geometric details. We argue that this misalignment stems from the current paradigm: the model struggles to distinguish and reconstruct varying geometry represented in normal maps, as the differences in underlying geometry are reflected only through relatively subtle color variations. To address this issue, we propose a new paradigm that reformulates normal estimation as shading sequence estimation, where shading sequences are more sensitive to various geometric information. Building on this paradigm, we present RoSE, a method that leverages image-to-video generative models to predict shading sequences. The predicted shading sequences are then converted into normal maps by solving a simple ordinary least-squares problem. To enhance robustness and better handle complex objects, RoSE is trained on a synthetic dataset, MultiShade, with diverse shapes, materials, and light conditions. Experiments demonstrate that RoSE achieves state-of-the-art performance on real-world benchmark datasets for object-based monocular normal estimation.
- Abstract(参考訳): 単分子正規推定は、任意の光の下で物体の1つのRGB画像から正規写像を推定することを目的としている。
既存の手法は、通常の地図を直接予測するディープモデルに依存している。
推定される通常の地図は正しいように見えるが、再構成された表面は幾何学的詳細と一致しないことが多い。
モデルでは、基底幾何学の違いは比較的微妙な色の変化によってのみ反映されるため、正規写像で表される様々な幾何学の区別と再構成に苦労する。
この問題に対処するために,シェーディングシーケンス推定として正規推定を再構成する新しいパラダイムを提案し,シェーディングシーケンスは様々な幾何学的情報により敏感である。
このパラダイムに基づいて,画像から映像への生成モデルを利用したシェーディングシーケンスの予測手法であるRoSEを提案する。
予測されたシェーディング列は、単純な通常の最小二乗問題を解くことによって正規写像に変換される。
堅牢性を高め、複雑なオブジェクトを処理するために、RoSEは、さまざまな形状、材料、光条件の合成データセットであるMultiShadeでトレーニングされる。
実験により、RoSEはオブジェクトベースの単分子正規推定のための実世界のベンチマークデータセット上で最先端のパフォーマンスを達成することが示された。
関連論文リスト
- A 3DGS-Diffusion Self-Supervised Framework for Normal Estimation from a Single Image [5.588610465556571]
空間次元情報の欠如は、単一画像からの正規推定において依然として課題である。
近年の拡散法は2次元から3次元の暗黙マッピングにおいて有意なポテンシャルを示した。
本稿では,SINGADを提案する。SINGADは,単一画像から正規推定のための新しい自己教師型フレームワークである。
論文 参考訳(メタデータ) (2025-08-08T02:32:33Z) - $π^3$: Permutation-Equivariant Visual Geometry Learning [65.81605424082434]
$pi3$はフィードフォワードニューラルネットワークで、視覚的幾何学的再構成に対する新しいアプローチを提供する。
pi3$は、アフィン不変のカメラポーズとスケール不変のローカルポイントマップを予測するために、完全な置換同変アーキテクチャを使用している。
論文 参考訳(メタデータ) (2025-07-17T17:59:53Z) - DiMeR: Disentangled Mesh Reconstruction Model [29.827345186012558]
DiMeRは、疎視メッシュ再構成のための3次元監視を備えた、幾何学的・テクスチュアなアンタングルフィードフォワードモデルである。
性能/コストの低いモジュールを排除し,正規化損失を再設計し,メッシュ抽出のアルゴリズムを効率化する。
大規模な実験により、DiMeRはスパースビュー、シングルイメージ、テキストから3Dタスクにまたがって一般化し、ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-24T15:39:20Z) - Orchid: Image Latent Diffusion for Joint Appearance and Geometry Generation [7.686091187078211]
色, 深度, 表面の正常な画像を生成する前に, 共同外観幾何学を学習する統合潜在拡散モデルOrchidを導入する。
Orchidは、テキストから直接色、深さ、正常な画像を生成し、関節の単眼深度と正常な推定をサポートする。
関節分布から採取することで、大きな3D領域をシームレスに塗布する。
論文 参考訳(メタデータ) (2025-01-22T18:46:47Z) - ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction [50.07671826433922]
微妙な幾何を同時に復元し、異なる特徴を持つ領域をまたいだ滑らかさを保つことは自明ではない。
そこで我々は,ND-SDFを提案する。ND-SDFは,通常のシーンとそれ以前のシーンの角偏差を表す正規偏向場を学習する。
本手法は, 壁面や床面などのスムーズなテクスチャ構造を得るだけでなく, 複雑な構造の幾何学的詳細も保存する。
論文 参考訳(メタデータ) (2024-08-22T17:59:01Z) - INV-Flow2PoseNet: Light-Resistant Rigid Object Pose from Optical Flow of
RGB-D Images using Images, Normals and Vertices [14.390887710127267]
本稿では,高精度な光学フローと厳密なシーン変換の同時推定のための新しいアーキテクチャを提案する。
光の流れやポーズを計算するための標準的な方法は、シーンの特徴の出現がビュー間で一定であるという期待に基づいている。
このデータは3次元再構成における典型的なユースケースであり、部分再構成の間の大きなステップでオブジェクトが回転することが多い。
論文 参考訳(メタデータ) (2022-09-14T11:40:00Z) - ICON: Learning Regular Maps Through Inverse Consistency [19.27928605302463]
画像登録の計算など空間変換の正則性をもたらすものについて検討する。
深いネットワークと逆整合損失とランダム化されたオフグリッド収量は、ほぼ微分同相の空間変換でよく振る舞う。
このアプローチの単純さにもかかわらず、実験は合成データと実データの両方において、明示的な正規化子と競合的な登録性能を慎重に調整せずに正規写像を得ることができるという説得力のある証拠を示している。
論文 参考訳(メタデータ) (2021-05-10T15:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。