論文の概要: SGFormer: Spherical Geometry Transformer for 360 Depth Estimation
- arxiv url: http://arxiv.org/abs/2404.14979v2
- Date: Tue, 08 Oct 2024 03:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:38.985979
- Title: SGFormer: Spherical Geometry Transformer for 360 Depth Estimation
- Title(参考訳): SGFormer:360度深度推定のための球形幾何学変換器
- Authors: Junsong Zhang, Zisong Chen, Chunyu Lin, Lang Nie, Zhijie Shen, Kang Liao, Yao Zhao,
- Abstract要約: パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
- 参考スコア(独自算出の注目度): 54.13459226728249
- License:
- Abstract: Panoramic distortion poses a significant challenge in 360 depth estimation, particularly pronounced at the north and south poles. Existing methods either adopt a bi-projection fusion strategy to remove distortions or model long-range dependencies to capture global structures, which can result in either unclear structure or insufficient local perception. In this paper, we propose a spherical geometry transformer, named SGFormer, to address the above issues, with an innovative step to integrate spherical geometric priors into vision transformers. To this end, we retarget the transformer decoder to a spherical prior decoder (termed SPDecoder), which endeavors to uphold the integrity of spherical structures during decoding. Concretely, we leverage bipolar re-projection, circular rotation, and curve local embedding to preserve the spherical characteristics of equidistortion, continuity, and surface distance, respectively. Furthermore, we present a query-based global conditional position embedding to compensate for spatial structure at varying resolutions. It not only boosts the global perception of spatial position but also sharpens the depth structure across different patches. Finally, we conduct extensive experiments on popular benchmarks, demonstrating our superiority over state-of-the-art solutions.
- Abstract(参考訳): パノラマ歪みは360度深度推定において重要な課題となり、特に北極と南極で顕著である。
既存の手法では、歪みを取り除くために二射影融合戦略を採用するか、大域構造を捉えるために長距離依存をモデル化する。
本稿では,SGFormerと呼ばれる球形幾何学変換器を提案し,上記の問題に対処し,球形幾何学の先駆を視覚変換器に統合する革新的なステップを提案する。
この目的のために、変換器デコーダを球状事前復号器(SPDecoder)に再ターゲットし、復号時の球状構造の整合性を維持する。
具体的には, 2極再射, 円形回転, 曲線局所埋め込みを利用して, 等歪, 連続性, 表面距離の球面特性をそれぞれ保持する。
さらに,様々な解像度で空間構造を補うために,クエリベースの大域的条件位置埋め込みを提案する。
これは空間的位置のグローバルな認識を高めるだけでなく、異なるパッチにわたって深さ構造を鋭くする。
最後に、一般的なベンチマークで広範な実験を行い、最先端のソリューションよりも優位性を示す。
関連論文リスト
- Revisiting 360 Depth Estimation with PanoGabor: A New Fusion Perspective [33.85582959047852]
本稿では,これらの課題に対処するため,指向性歪みを考慮したGabor Fusionフレームワーク(PGFuse)を提案する。
再帰的歪みに対処するために、線形緯度対応の歪み表現法を設計し、カスタマイズされた歪み対応ガボルフィルタを生成する。
ガボル変換の配向感度を考慮すると、この感度を安定させるために球面勾配制約を導入する。
論文 参考訳(メタデータ) (2024-08-29T02:58:35Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Twin Deformable Point Convolutions for Point Cloud Semantic Segmentation in Remote Sensing Scenes [12.506628755166814]
双変形点畳み込み(TDConvs)と呼ばれる新しい畳み込み作用素を提案する。
これらの演算子は、緯度-経度面と高度方向の変形可能なサンプリングポイントを学習することで適応的な特徴学習を実現することを目的としている。
既存のベンチマークの実験では、TDConvsが最高のセグメンテーション性能を達成していると結論付けています。
論文 参考訳(メタデータ) (2024-05-30T06:31:03Z) - PanoNormal: Monocular Indoor 360° Surface Normal Estimation [12.992217830651988]
textitPanoNormalは、360deg画像用に設計された単分子表面正規推定アーキテクチャである。
球面特徴分布を考慮した多レベルグローバル自己注意方式を用いる。
提案手法は,複数の一般的な360deg単分子データセットにまたがって,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-05-29T04:07:14Z) - CRF360D: Monocular 360 Depth Estimation via Spherical Fully-Connected CRFs [5.854176164327896]
等角射影(ERP)面に固有の歪みがあるため、単眼の360度深度推定は困難である。
本稿では球面完全連結CRF(SF-CRF)を提案する。
SF-CRFは2つの重要なコンポーネントを享受し、まず、十分な球面近傍を含むために、球面ウィンドウ変換(SWT)モジュールを提案する。
このモジュールは、赤道窓の球面関係を他のすべての窓に再現することを目的としており、球面の回転不変性を活用している。
注目すべきは、変換プロセスが非常に効率的で、すべてのウィンドウの変換を512で完了することだ。
論文 参考訳(メタデータ) (2024-05-19T14:29:06Z) - T-Pixel2Mesh: Combining Global and Local Transformer for 3D Mesh Generation from a Single Image [84.08705684778666]
本稿では,P2Mの粗大なアプローチにインスパイアされたトランスフォーマーブーストアーキテクチャT-Pixel2Meshを提案する。
具体的には,大域変換器を用いて局所的な形状を制御し,局所的な幾何学的詳細を洗練させる。
ShapeNetの実験では最先端の性能が実証され,実世界のデータでは一般化能力が示された。
論文 参考訳(メタデータ) (2024-03-20T15:14:22Z) - OcTr: Octree-based Transformer for 3D Object Detection [30.335788698814444]
LiDARベースの3Dオブジェクト検出の重要な課題は、大規模な3Dシーンから十分な特徴をキャプチャすることだ。
我々はこの問題に対処するためにOcTrというOcreeベースのトランスフォーマーを提案する。
本研究では,前景の知覚性を高めるために,セマンティック・アウェアな位置埋め込みとアテンションマスクを組み合わせたハイブリッドな位置埋め込みを提案する。
論文 参考訳(メタデータ) (2023-03-22T15:01:20Z) - Neural Convolutional Surfaces [59.172308741945336]
この研究は、大域的、粗い構造から、微細で局所的で、おそらく繰り返される幾何学を歪める形状の表現に関係している。
このアプローチは, 最先端技術よりも優れたニューラル形状圧縮を実現するとともに, 形状詳細の操作と伝達を可能にする。
論文 参考訳(メタデータ) (2022-04-05T15:40:11Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - A Rotation-Invariant Framework for Deep Point Cloud Analysis [132.91915346157018]
ネットワーク入力時に一般的な3次元カルト座標を置き換えるために,新しい低レベル純粋回転不変表現を導入する。
また,これらの表現を特徴に組み込むネットワークアーキテクチャを提案し,点とその近傍の局所的関係とグローバルな形状構造を符号化する。
本手法は, 形状分類, 部分分割, 形状検索を含む多点雲解析タスクにおいて評価する。
論文 参考訳(メタデータ) (2020-03-16T14:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。