論文の概要: PanoNormal: Monocular Indoor 360° Surface Normal Estimation
- arxiv url: http://arxiv.org/abs/2405.18745v1
- Date: Wed, 29 May 2024 04:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 18:58:09.514002
- Title: PanoNormal: Monocular Indoor 360° Surface Normal Estimation
- Title(参考訳): PanoNormal:単眼の室内360度表面の正規化
- Authors: Kun Huang, Fanglue Zhang, Neil Dodgson,
- Abstract要約: textitPanoNormalは、360deg画像用に設計された単分子表面正規推定アーキテクチャである。
球面特徴分布を考慮した多レベルグローバル自己注意方式を用いる。
提案手法は,複数の一般的な360deg単分子データセットにまたがって,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 12.992217830651988
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The presence of spherical distortion on the Equirectangular image is an acknowledged challenge in dense regression computer vision tasks, such as surface normal estimation. Recent advances in convolutional neural networks (CNNs) strive to mitigate spherical distortion but often fall short in capturing holistic structures effectively, primarily due to their fixed receptive field. On the other hand, vision transformers (ViTs) excel in establishing long-range dependencies through a global self-attention mechanism, yet they encounter limitations in preserving local details. We introduce \textit{PanoNormal}, a monocular surface normal estimation architecture designed for 360{\deg} images, which combines the strengths of CNNs and ViTs. Specifically, we employ a multi-level global self-attention scheme with the consideration of the spherical feature distribution, enhancing the comprehensive understanding of the scene. Our experimental results demonstrate that our approach achieves state-of-the-art performance across multiple popular 360{\deg} monocular datasets. The code and models will be released.
- Abstract(参考訳): 等角面上の球面歪みの存在は、表面正規推定のような高密度回帰コンピュータビジョンタスクにおいて明らかな課題である。
畳み込みニューラルネットワーク(CNN)の最近の進歩は、球面の歪みを緩和しようとするが、多くの場合、その固定された受容野のために、全体構造を効果的に捉えるのに不足する。
一方、視覚変換器(ViT)は、グローバルな自己アテンション機構を通じて長距離依存関係を確立するのに優れるが、局所的な詳細を保存する際の制限に直面する。
CNN と ViT の強度を組み合わせた 360{\deg} 画像のための単分子面正規推定アーキテクチャである \textit{PanoNormal} を紹介する。
具体的には,球面特徴分布を考慮した多段階のグローバル自己注意方式を採用し,シーンの包括的理解を高めた。
実験結果から,本手法は複数の一般的な360{\deg}単分子データセットにまたがる最先端性能を実現することができることがわかった。
コードとモデルはリリースされる。
関連論文リスト
- GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [44.36843262026336]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Learning Robust Generalizable Radiance Field with Visibility and Feature
Augmented Point Representation [7.203073346844801]
本稿では、一般化可能なニューラル放射場(NeRF)のための新しいパラダイムを提案する。
本稿では、画像ベースレンダリングではなく、点ベースに基づく一般化可能なニューラルネットワークを構築するための第1のパラダイムを提案する。
我々のアプローチは、幾何的先行性によって鮮度を明示的にモデル化し、それらをニューラル特徴で拡張する。
論文 参考訳(メタデータ) (2024-01-25T17:58:51Z) - MuRF: Multi-Baseline Radiance Fields [117.55811938988256]
スパースビュー合成におけるフィードフォワードアプローチであるmulti-Baseline Radiance Fields(MuRF)を提案する。
MuRFは、複数の異なるベースライン設定で最先端のパフォーマンスを達成する。
また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:56Z) - GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for
Indoor Scenes [47.76269541664071]
本稿では,フレームと低テクスチャの大きな回転に起因する屋内シーンにおける自己教師型単眼深度推定の課題に対処する。
モノクラーシーケンスから粗いカメラポーズを多視点形状で取得し,前者に対応する。
低テクスチャの効果を和らげるために、視覚変換器のグローバルな推論と過度に適合する反復的な自己蒸留機構を組み合わせる。
論文 参考訳(メタデータ) (2023-09-26T17:59:57Z) - Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文 参考訳(メタデータ) (2023-08-24T18:07:37Z) - MonoViT: Self-Supervised Monocular Depth Estimation with a Vision
Transformer [52.0699787446221]
自己教師付き単眼深度推定の柔軟性とViTモデルにより実現された大域的推論の枠組みであるMonoViTを提案する。
平易な畳み込みとTransformerブロックを組み合わせることで、我々のモデルは局所的かつグローバルに推論し、より詳細な精度と精度で深度予測を行うことができる。
論文 参考訳(メタデータ) (2022-08-06T16:54:45Z) - MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface
Reconstruction [72.05649682685197]
最先端のニューラル暗黙法は、多くの入力ビューから単純なシーンの高品質な再構築を可能にする。
これは主に、十分な制約を提供していないRGB再構築損失の固有の曖昧さによって引き起こされる。
近年の単分子形状予測の分野での進歩に触発され, ニューラルな暗黙的表面再構成の改善にこれらの方法が役立つかを探究する。
論文 参考訳(メタデータ) (2022-06-01T17:58:15Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。