論文の概要: SO3UFormer: Learning Intrinsic Spherical Features for Rotation-Robust Panoramic Segmentation
- arxiv url: http://arxiv.org/abs/2602.22867v1
- Date: Thu, 26 Feb 2026 11:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.654583
- Title: SO3UFormer: Learning Intrinsic Spherical Features for Rotation-Robust Panoramic Segmentation
- Title(参考訳): SO3UFormer:回転ロバストパノラマセグメンテーションのための固有球面特徴の学習
- Authors: Qinfeng Zhu, Yunxi Jiang, Lei Fan,
- Abstract要約: パノラマ意味セグメンテーションモデルは通常、厳密な重力の仮定の下で訓練される。
実世界のキャプチャは、制約のないカメラの動きのために、この標準方向から逸脱することが多い。
この不一致により、標準的な球面トランスフォーマーはグローバルな緯度条件をオーバーフィットさせ、3次元リオリエンテーションの下で性能が低下する。
我々は,下層の座標フレームに敏感でない固有球面特徴を学習するために設計された回転ロバストアーキテクチャであるSO3UFormerを紹介する。
- 参考スコア(独自算出の注目度): 1.6571781613404601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic semantic segmentation models are typically trained under a strict gravity-aligned assumption. However, real-world captures often deviate from this canonical orientation due to unconstrained camera motions, such as the rotational jitter of handheld devices or the dynamic attitude shifts of aerial platforms. This discrepancy causes standard spherical Transformers to overfit global latitude cues, leading to performance collapse under 3D reorientations. To address this, we introduce SO3UFormer, a rotation-robust architecture designed to learn intrinsic spherical features that are less sensitive to the underlying coordinate frame. Our approach rests on three geometric pillars: (1) an intrinsic feature formulation that decouples the representation from the gravity vector by removing absolute latitude encoding; (2) quadrature-consistent spherical attention that accounts for non-uniform sampling densities; and (3) a gauge-aware relative positional mechanism that encodes local angular geometry using tangent-plane projected angles and discrete gauge pooling, avoiding reliance on global axes. We further use index-based spherical resampling together with a logit-level SO(3)-consistency regularizer during training. To rigorously benchmark robustness, we introduce Pose35, a dataset variant of Stanford2D3D perturbed by random rotations within $\pm 35^\circ$. Under the extreme test of arbitrary full SO(3) rotations, existing SOTAs fail catastrophically: the baseline SphereUFormer drops from 67.53 mIoU to 25.26 mIoU. In contrast, SO3UFormer demonstrates remarkable stability, achieving 72.03 mIoU on Pose35 and retaining 70.67 mIoU under full SO(3) rotations.
- Abstract(参考訳): パノラマ意味セグメンテーションモデルは通常、厳密な重力の仮定の下で訓練される。
しかし、実世界のキャプチャは、ハンドヘルドデバイスの回転ジッタや空中プラットフォームの動的姿勢シフトなど、制約のないカメラの動きによって、この標準方向から逸脱することが多い。
この不一致により、標準的な球面トランスフォーマーはグローバルな緯度条件をオーバーフィットさせ、3次元リオリエンテーションの下で性能が低下する。
そこで本研究では,下層の座標フレームに敏感でない固有球面特徴を学習するために設計された回転ロバストアーキテクチャであるSO3UFormerを紹介する。
本手法は,(1)絶対緯度符号化を除去して重力ベクトルから表現を分離する内在的特徴定式化,(2)一様サンプリング密度を考慮に入れた球面の注意,(3)接面射影角度と離散ゲージプーリングを用いて局所角形状を符号化し,大域軸への依存を回避したゲージ対応相対的な位置決め機構の3つの柱に依拠する。
さらに、トレーニング中にインデックスベースの球面リサンプリングとロジトレベルのSO(3)一貫性正規化器を併用する。
強靭性を厳密にベンチマークするために,Stanford 2D3Dのデータセット変種であるPose35を紹介した。
任意のSO(3)回転の極端なテストでは、既存のSOTAは破滅的に失敗し、ベースラインのSphereUFormerは67.53 mIoUから25.26 mIoUに低下する。
対照的にSO3UFormerは、Pose35上で72.03 mIoUを達成し、完全なSO(3)回転下で70.67 mIoUを維持している。
関連論文リスト
- 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文 参考訳(メタデータ) (2024-11-01T12:50:38Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [52.23806040289676]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - VI-Net: Boosting Category-level 6D Object Pose Estimation via Learning
Decoupled Rotations on the Spherical Representations [55.25238503204253]
作業を容易にするために,VI-Netと呼ばれる新しい回転推定ネットワークを提案する。
球面信号を処理するために、SPAtial Spherical Convolutionの新たな設計に基づいて、球面特徴ピラミッドネットワークを構築する。
ベンチマークデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-08-19T05:47:53Z) - Rotation-Invariant Transformer for Point Cloud Matching [42.5714375149213]
我々は,回転不変変換器であるRoITrを導入し,点クラウドマッチングタスクにおけるポーズ変動に対処する。
本稿では,自己認識機構によって学習した,回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。
RoITrは、Inlier RatioとRegistration Recallの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。
論文 参考訳(メタデータ) (2023-03-14T20:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。