論文の概要: SO3UFormer: Learning Intrinsic Spherical Features for Rotation-Robust Panoramic Segmentation
- arxiv url: http://arxiv.org/abs/2602.22867v1
- Date: Thu, 26 Feb 2026 11:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.654583
- Title: SO3UFormer: Learning Intrinsic Spherical Features for Rotation-Robust Panoramic Segmentation
- Title(参考訳): SO3UFormer:回転ロバストパノラマセグメンテーションのための固有球面特徴の学習
- Authors: Qinfeng Zhu, Yunxi Jiang, Lei Fan,
- Abstract要約: パノラマ意味セグメンテーションモデルは通常、厳密な重力の仮定の下で訓練される。
実世界のキャプチャは、制約のないカメラの動きのために、この標準方向から逸脱することが多い。
この不一致により、標準的な球面トランスフォーマーはグローバルな緯度条件をオーバーフィットさせ、3次元リオリエンテーションの下で性能が低下する。
我々は,下層の座標フレームに敏感でない固有球面特徴を学習するために設計された回転ロバストアーキテクチャであるSO3UFormerを紹介する。
- 参考スコア(独自算出の注目度): 1.6571781613404601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic semantic segmentation models are typically trained under a strict gravity-aligned assumption. However, real-world captures often deviate from this canonical orientation due to unconstrained camera motions, such as the rotational jitter of handheld devices or the dynamic attitude shifts of aerial platforms. This discrepancy causes standard spherical Transformers to overfit global latitude cues, leading to performance collapse under 3D reorientations. To address this, we introduce SO3UFormer, a rotation-robust architecture designed to learn intrinsic spherical features that are less sensitive to the underlying coordinate frame. Our approach rests on three geometric pillars: (1) an intrinsic feature formulation that decouples the representation from the gravity vector by removing absolute latitude encoding; (2) quadrature-consistent spherical attention that accounts for non-uniform sampling densities; and (3) a gauge-aware relative positional mechanism that encodes local angular geometry using tangent-plane projected angles and discrete gauge pooling, avoiding reliance on global axes. We further use index-based spherical resampling together with a logit-level SO(3)-consistency regularizer during training. To rigorously benchmark robustness, we introduce Pose35, a dataset variant of Stanford2D3D perturbed by random rotations within $\pm 35^\circ$. Under the extreme test of arbitrary full SO(3) rotations, existing SOTAs fail catastrophically: the baseline SphereUFormer drops from 67.53 mIoU to 25.26 mIoU. In contrast, SO3UFormer demonstrates remarkable stability, achieving 72.03 mIoU on Pose35 and retaining 70.67 mIoU under full SO(3) rotations.
- Abstract(参考訳): パノラマ意味セグメンテーションモデルは通常、厳密な重力の仮定の下で訓練される。
しかし、実世界のキャプチャは、ハンドヘルドデバイスの回転ジッタや空中プラットフォームの動的姿勢シフトなど、制約のないカメラの動きによって、この標準方向から逸脱することが多い。
この不一致により、標準的な球面トランスフォーマーはグローバルな緯度条件をオーバーフィットさせ、3次元リオリエンテーションの下で性能が低下する。
そこで本研究では,下層の座標フレームに敏感でない固有球面特徴を学習するために設計された回転ロバストアーキテクチャであるSO3UFormerを紹介する。
本手法は,(1)絶対緯度符号化を除去して重力ベクトルから表現を分離する内在的特徴定式化,(2)一様サンプリング密度を考慮に入れた球面の注意,(3)接面射影角度と離散ゲージプーリングを用いて局所角形状を符号化し,大域軸への依存を回避したゲージ対応相対的な位置決め機構の3つの柱に依拠する。
さらに、トレーニング中にインデックスベースの球面リサンプリングとロジトレベルのSO(3)一貫性正規化器を併用する。
強靭性を厳密にベンチマークするために,Stanford 2D3Dのデータセット変種であるPose35を紹介した。
任意のSO(3)回転の極端なテストでは、既存のSOTAは破滅的に失敗し、ベースラインのSphereUFormerは67.53 mIoUから25.26 mIoUに低下する。
対照的にSO3UFormerは、Pose35上で72.03 mIoUを達成し、完全なSO(3)回転下で70.67 mIoUを維持している。
関連論文リスト
- Enhancing Rotation-Invariant 3D Learning with Global Pose Awareness and Attention Mechanisms [30.575822636142956]
そこで我々は,学習された共有回転から得られる,一様に一貫した参照点(シャドウと呼ばれる)を持つローカルRI記述子を増強する,シャドウ・インフォームド・ポース・フィーチャー(SiPF)を紹介した。
また,SiPFを特徴集約プロセスに統合した注目ベースの演算子である,回転不変アテンション・コンボリューション(RIAttnConv)を提案する。
論文 参考訳(メタデータ) (2025-11-11T23:01:28Z) - Correspondence-Free Fast and Robust Spherical Point Pattern Registration [0.8287206589886879]
本稿では,2つの球面パターン間を推定するための3つの新しいアルゴリズムを提案する。
我々のアルゴリズムは10倍高速で、10倍精度が高い。
論文 参考訳(メタデータ) (2025-08-04T12:21:05Z) - 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文 参考訳(メタデータ) (2024-11-01T12:50:38Z) - RIDE: Boosting 3D Object Detection for LiDAR Point Clouds via Rotation-Invariant Analysis [15.42293045246587]
RIDEは3D LiDAR-point-based object DEtectorの回転不変性の先駆的な探索である。
回転に敏感ではあるが幾何をよく保持できる2機能抽出器と、幾何情報をある程度失うが回転に頑健な回転不変特徴を抽出する。
我々のRIDEは互換性があり、既存の1段と2段の3D検出器に簡単に接続でき、検出性能と回転ロバスト性の両方を高めることができる。
論文 参考訳(メタデータ) (2024-08-28T08:53:33Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [52.23806040289676]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - VI-Net: Boosting Category-level 6D Object Pose Estimation via Learning
Decoupled Rotations on the Spherical Representations [55.25238503204253]
作業を容易にするために,VI-Netと呼ばれる新しい回転推定ネットワークを提案する。
球面信号を処理するために、SPAtial Spherical Convolutionの新たな設計に基づいて、球面特徴ピラミッドネットワークを構築する。
ベンチマークデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-08-19T05:47:53Z) - Rotation-Invariant Transformer for Point Cloud Matching [42.5714375149213]
我々は,回転不変変換器であるRoITrを導入し,点クラウドマッチングタスクにおけるポーズ変動に対処する。
本稿では,自己認識機構によって学習した,回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。
RoITrは、Inlier RatioとRegistration Recallの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。
論文 参考訳(メタデータ) (2023-03-14T20:55:27Z) - Spherical Convolutional Neural Networks: Stability to Perturbations in
SO(3) [175.96910854433574]
球状畳み込みニューラルネットワーク(Spherical Convolutional Neural Network, Spherical CNN)は、データ構造を利用して3次元データから非線形表現を学習する。
本稿では,球状CNNが球状信号に固有の回転構造に関係しているとして,その特性について検討する。
論文 参考訳(メタデータ) (2020-10-12T17:16:07Z) - A Rotation-Invariant Framework for Deep Point Cloud Analysis [132.91915346157018]
ネットワーク入力時に一般的な3次元カルト座標を置き換えるために,新しい低レベル純粋回転不変表現を導入する。
また,これらの表現を特徴に組み込むネットワークアーキテクチャを提案し,点とその近傍の局所的関係とグローバルな形状構造を符号化する。
本手法は, 形状分類, 部分分割, 形状検索を含む多点雲解析タスクにおいて評価する。
論文 参考訳(メタデータ) (2020-03-16T14:04:45Z) - Quaternion Equivariant Capsule Networks for 3D Point Clouds [58.566467950463306]
本稿では,3次元回転と翻訳に同値な点雲を処理するための3次元カプセルモジュールを提案する。
カプセル間の動的ルーティングをよく知られたWeiszfeldアルゴリズムに接続する。
オペレーターに基づいて、ポーズから幾何学をアンタングルするカプセルネットワークを構築します。
論文 参考訳(メタデータ) (2019-12-27T13:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。