論文の概要: Multi-task Geometric Estimation of Depth and Surface Normal from Monocular 360° Images
- arxiv url: http://arxiv.org/abs/2411.01749v1
- Date: Mon, 04 Nov 2024 02:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:44.289283
- Title: Multi-task Geometric Estimation of Depth and Surface Normal from Monocular 360° Images
- Title(参考訳): 単眼360度画像からの深度と表面正常度のマルチタスク幾何推定
- Authors: Kun Huang, Fang-Lue Zhang, Fangfang Zhang, Yu-Kun Lai, Paul Rosin, Neil A. Dodgson,
- Abstract要約: 360deg画像から深度と表面の正規度を同時に推定する新しいマルチタスク学習(MTL)ネットワークを導入する。
実験結果から, MTLアーキテクチャは, 深さおよび表面の正規分布推定において, 最先端の手法よりも有意に優れていた。
我々のモデルの有効性と一般化性、特に複雑な表面テクスチャを扱う場合、360deg画像幾何推定における新しいベンチマークとして確立する。
- 参考スコア(独自算出の注目度): 45.051325655043634
- License:
- Abstract: Geometric estimation is required for scene understanding and analysis in panoramic 360{\deg} images. Current methods usually predict a single feature, such as depth or surface normal. These methods can lack robustness, especially when dealing with intricate textures or complex object surfaces. We introduce a novel multi-task learning (MTL) network that simultaneously estimates depth and surface normals from 360{\deg} images. Our first innovation is our MTL architecture, which enhances predictions for both tasks by integrating geometric information from depth and surface normal estimation, enabling a deeper understanding of 3D scene structure. Another innovation is our fusion module, which bridges the two tasks, allowing the network to learn shared representations that improve accuracy and robustness. Experimental results demonstrate that our MTL architecture significantly outperforms state-of-the-art methods in both depth and surface normal estimation, showing superior performance in complex and diverse scenes. Our model's effectiveness and generalizability, particularly in handling intricate surface textures, establish it as a new benchmark in 360{\deg} image geometric estimation. The code and model are available at \url{https://github.com/huangkun101230/360MTLGeometricEstimation}.
- Abstract(参考訳): パノラマ360{\deg}画像のシーン理解と解析には幾何学的推定が必要である。
現在の手法は通常、深さや表面の正常といった単一の特徴を予測する。
これらの手法は、特に複雑なテクスチャや複雑な物体の表面を扱う場合、堅牢性を欠く可能性がある。
360{\deg}画像から深度と表面の正規度を同時に推定する新しいマルチタスク学習(MTL)ネットワークを導入する。
我々の最初の革新は、深度と表面の正規推定から幾何情報を統合することで、両方のタスクの予測を強化し、3Dシーン構造をより深く理解するMTLアーキテクチャである。
もうひとつのイノベーションは,2つのタスクをブリッジするフュージョンモジュールです。
実験の結果,MTLアーキテクチャは深度および表面の正常推定において最先端の手法よりも優れており,複雑なシーンや多様なシーンにおいて優れた性能を示すことがわかった。
我々のモデルの有効性と一般化性、特に複雑な表面テクスチャを扱う場合、360{\deg}画像幾何推定における新しいベンチマークとして確立する。
コードとモデルは \url{https://github.com/huangkun101230/360MTLGeometricEstimation} で公開されている。
関連論文リスト
- SuperPrimitive: Scene Reconstruction at a Primitive Level [23.934492494774116]
共同カメラのポーズと画像やモノクロビデオからの密度の高い幾何学的推定は依然として難しい問題である。
多くの高密度増分再構成システムは、画像画素を直接操作し、多視点幾何学的手がかりを用いて3次元位置を解く。
我々はスーパープリミティブ(SuperPrimitive)と呼ばれる新しいイメージ表現でこの問題に対処する。
論文 参考訳(メタデータ) (2023-12-10T13:44:03Z) - Surface Geometry Processing: An Efficient Normal-based Detail
Representation [66.69000350849328]
2次元正規領域に効率的な表面詳細処理フレームワークを導入する。
提案する正規表現は,細部分離性,細部転送性,細部イデオロジェンスという3つの重要な特性を持つことを示す。
3つの新しいスキームは、幾何学的テクスチャ合成、幾何学的ディテール転送、3次元表面超解像を含む幾何学的表面詳細処理の応用のために設計されている。
論文 参考訳(メタデータ) (2023-07-16T04:46:32Z) - Fusing Visual Appearance and Geometry for Multi-modality 6DoF Object
Tracking [21.74515335906769]
視覚的な外観や形状から情報を融合してオブジェクトのポーズを推定する多モードトラッカーを開発した。
このアルゴリズムは、幾何学的手法であるICGを拡張し、表面の外観をさらに考慮する。
論文 参考訳(メタデータ) (2023-02-22T15:53:00Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Self-supervised Depth Estimation Leveraging Global Perception and
Geometric Smoothness Using On-board Videos [0.5276232626689566]
我々は,グローバルな特徴と局所的な特徴を同時に抽出する画素ワイド深度推定のためのDLNetを提案する。
幾何学的に自然な深度マップを予測するために3次元形状の滑らかさ損失を提案する。
KITTIとMake3Dベンチマークの実験では、提案したDLNetは最先端の手法と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-06-07T10:53:27Z) - GeoNet++: Iterative Geometric Neural Network with Edge-Aware Refinement
for Joint Depth and Surface Normal Estimation [204.13451624763735]
本研究では,エッジアウェア・リファインメント(GeoNet++)を用いた幾何ニューラルネットワークを提案し,単一の画像から深さと表面正規写像の両方を共同で予測する。
geonet++は、強い3d一貫性と鋭い境界を持つ深さと表面の正常を効果的に予測する。
画素単位の誤差/精度を評価することに焦点を当てた現在の測定値とは対照的に、3DGMは予測深度が高品質な3D表面の正常を再構築できるかどうかを測定する。
論文 参考訳(メタデータ) (2020-12-13T06:48:01Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images [64.53227129573293]
1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。
ビュー間で一貫した高品質なパラメトリックな3次元表面を生成できるニューラルネットワークを設計する。
提案手法は,共通対象カテゴリからの形状の公開データセットに基づいて,教師と訓練を行う。
論文 参考訳(メタデータ) (2020-08-18T06:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。