論文の概要: SGFormer: Spherical Geometry Transformer for 360 Depth Estimation
- arxiv url: http://arxiv.org/abs/2404.14979v1
- Date: Tue, 23 Apr 2024 12:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:11:34.399883
- Title: SGFormer: Spherical Geometry Transformer for 360 Depth Estimation
- Title(参考訳): SGFormer:360度深度推定のための球形幾何学変換器
- Authors: Junsong Zhang, Zisong Chen, Chunyu Lin, Lang Nie, Zhijie Shen, Junda Huang, Yao Zhao,
- Abstract要約: パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
- 参考スコア(独自算出の注目度): 44.36843262026336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic distortion poses a significant challenge in 360 depth estimation, particularly pronounced at the north and south poles. Existing methods either adopt a bi-projection fusion strategy to remove distortions or model long-range dependencies to capture global structures, which can result in either unclear structure or insufficient local perception. In this paper, we propose a spherical geometry transformer, named SGFormer, to address the above issues, with an innovative step to integrate spherical geometric priors into vision transformers. To this end, we retarget the transformer decoder to a spherical prior decoder (termed SPDecoder), which endeavors to uphold the integrity of spherical structures during decoding. Concretely, we leverage bipolar re-projection, circular rotation, and curve local embedding to preserve the spherical characteristics of equidistortion, continuity, and surface distance, respectively. Furthermore, we present a query-based global conditional position embedding to compensate for spatial structure at varying resolutions. It not only boosts the global perception of spatial position but also sharpens the depth structure across different patches. Finally, we conduct extensive experiments on popular benchmarks, demonstrating our superiority over state-of-the-art solutions.
- Abstract(参考訳): パノラマ歪みは360度深度推定において重要な課題となり、特に北極と南極で顕著である。
既存の手法では、歪みを取り除くために二射影融合戦略を採用するか、大域構造を捉えるために長距離依存をモデル化する。
本稿では,SGFormerと呼ばれる球形幾何学変換器を提案し,上記の問題に対処し,球形幾何学の先駆を視覚変換器に統合する革新的なステップを提案する。
この目的のために、変換器デコーダを球状事前復号器(SPDecoder)に再ターゲットし、復号時の球状構造の整合性を維持する。
具体的には, 2極再射, 円形回転, 曲線局所埋め込みを利用して, 等歪, 連続性, 表面距離の球面特性をそれぞれ保持する。
さらに,様々な解像度で空間構造を補うために,クエリベースの大域的条件位置埋め込みを提案する。
これは空間的位置のグローバルな認識を高めるだけでなく、異なるパッチにわたって深さ構造を鋭くする。
最後に、一般的なベンチマークで広範な実験を行い、最先端のソリューションよりも優位性を示す。
関連論文リスト
- GeoDeformer: Geometric Deformable Transformer for Action Recognition [22.536307401874105]
視覚トランスフォーマーは、近年、行動認識のための畳み込みネットワークの効果的な代替品として登場した。
本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。
論文 参考訳(メタデータ) (2023-11-29T16:55:55Z) - OcTr: Octree-based Transformer for 3D Object Detection [30.335788698814444]
LiDARベースの3Dオブジェクト検出の重要な課題は、大規模な3Dシーンから十分な特徴をキャプチャすることだ。
我々はこの問題に対処するためにOcTrというOcreeベースのトランスフォーマーを提案する。
本研究では,前景の知覚性を高めるために,セマンティック・アウェアな位置埋め込みとアテンションマスクを組み合わせたハイブリッドな位置埋め込みを提案する。
論文 参考訳(メタデータ) (2023-03-22T15:01:20Z) - Rotation-Invariant Transformer for Point Cloud Matching [42.5714375149213]
我々は,回転不変変換器であるRoITrを導入し,点クラウドマッチングタスクにおけるポーズ変動に対処する。
本稿では,自己認識機構によって学習した,回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。
RoITrは、Inlier RatioとRegistration Recallの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。
論文 参考訳(メタデータ) (2023-03-14T20:55:27Z) - Neural Contourlet Network for Monocular 360 Depth Estimation [37.82642960470551]
我々は360度画像の解釈可能かつスパースな表現を構築する新しい視点を提供する。
本稿では,畳み込み型ニューラルネットワークと畳み込み型トランスフォーメーションブランチからなる,畳み込み型ニューラルネットワークを提案する。
エンコーダの段階では、2種類のキューを効果的に融合させる空間スペクトル融合モジュールを設計する。
論文 参考訳(メタデータ) (2022-08-03T02:25:55Z) - Neural Convolutional Surfaces [59.172308741945336]
この研究は、大域的、粗い構造から、微細で局所的で、おそらく繰り返される幾何学を歪める形状の表現に関係している。
このアプローチは, 最先端技術よりも優れたニューラル形状圧縮を実現するとともに, 形状詳細の操作と伝達を可能にする。
論文 参考訳(メタデータ) (2022-04-05T15:40:11Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion [12.058261716065381]
球面歪み問題に対処するため,360度単分子深度推定パイプライン,textit OmniFusionを提案する。
我々のパイプラインは、360度画像を歪みの少ない視点パッチ(すなわち、タンジェント画像)に変換して、CNNを介してパッチワイズ予測を取得し、最終的な出力のためにパッチワイズ結果をマージする。
実験の結果,本手法は歪み問題を大幅に軽減し,360度単眼深度推定ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-02T03:19:49Z) - Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。
提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-06-15T09:15:54Z) - A Rotation-Invariant Framework for Deep Point Cloud Analysis [132.91915346157018]
ネットワーク入力時に一般的な3次元カルト座標を置き換えるために,新しい低レベル純粋回転不変表現を導入する。
また,これらの表現を特徴に組み込むネットワークアーキテクチャを提案し,点とその近傍の局所的関係とグローバルな形状構造を符号化する。
本手法は, 形状分類, 部分分割, 形状検索を含む多点雲解析タスクにおいて評価する。
論文 参考訳(メタデータ) (2020-03-16T14:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。