論文の概要: Unified Spherical Frontend: Learning Rotation-Equivariant Representations of Spherical Images from Any Camera
- arxiv url: http://arxiv.org/abs/2511.18174v1
- Date: Sat, 22 Nov 2025 19:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.672236
- Title: Unified Spherical Frontend: Learning Rotation-Equivariant Representations of Spherical Images from Any Camera
- Title(参考訳): 統一球面フロントエンド:任意のカメラから球面画像の回転同変表現を学習する
- Authors: Mukai Yu, Mosam Dabhi, Liuyue Xie, Sebastian Scherer, László A. Jeni,
- Abstract要約: 統一球面フロントエンド(英: Unified Spherical Frontend、USF)は、レンズに依存しないフレームワークで、任意のカメラからの画像を光線方向対応によって単位球表現に変換する。
USFは高解像度の球面画像を効率的に処理し、ランダムなテスト時間回転で1%未満のパフォーマンス低下を維持する。
- 参考スコア(独自算出の注目度): 12.448357304482668
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern perception increasingly relies on fisheye, panoramic, and other wide field-of-view (FoV) cameras, yet most pipelines still apply planar CNNs designed for pinhole imagery on 2D grids, where image-space neighborhoods misrepresent physical adjacency and models are sensitive to global rotations. Frequency-domain spherical CNNs partially address this mismatch but require costly spherical harmonic transforms that constrain resolution and efficiency. We introduce the Unified Spherical Frontend (USF), a lens-agnostic framework that transforms images from any calibrated camera into a unit-sphere representation via ray-direction correspondences, and performs spherical resampling, convolution, and pooling directly in the spatial domain. USF is modular: projection, location sampling, interpolation, and resolution control are fully decoupled. Its distance-only spherical kernels offer configurable rotation-equivariance (mirroring translation-equivariance in planar CNNs) while avoiding harmonic transforms entirely. We compare standard planar backbones with their spherical counterparts across classification, detection, and segmentation tasks on synthetic (Spherical MNIST) and real-world datasets (PANDORA, Stanford 2D-3D-S), and stress-test robustness to extreme lens distortions, varying FoV, and arbitrary rotations. USF processes high-resolution spherical imagery efficiently and maintains less than 1% performance drop under random test-time rotations, even without rotational augmentation, and even enables zero-shot generalization from one lens type to unseen wide-FoV lenses with minimal performance degradation.
- Abstract(参考訳): 現代の認識は、魚眼、パノラマ、その他の広視野カメラ(FoV)にますます依存しているが、ほとんどのパイプラインは、2Dグリッド上にピンホール画像用に設計された平面CNNを適用している。
周波数領域の球面CNNはこのミスマッチに部分的に対処するが、解像度と効率を制約する高価な球面高調波変換を必要とする。
我々は,任意のキャリブレーションカメラからの画像を線方向対応によって単位球表現に変換し,空間領域内で球面再サンプリング,畳み込み,プールを行うレンズ非依存のフレームワークである統一球面フロントエンド(USF)を紹介した。
USFはモジュラーであり、投射、位置サンプリング、補間、解像度制御は完全に切り離されている。
距離のみの球面核は、高調波変換を完全に回避しつつ、構成可能な回転等分散(平面CNNの変換等分散のミラーリング)を提供する。
我々は,標準的な平面バックボーンを,合成(球面MNIST)と実世界のデータセット(PANDORA,Stanford 2D-3D-S)の分類,検出,セグメンテーションタスク,および極端レンズ歪みに対するストレス-テストロバスト性,FoVの変化,任意の回転を含む球面バックボーンと比較した。
USFは高解像度の球面画像を効率よく処理し、回転の増強なしにランダムなテスト時間回転の下で1%未満の性能低下を維持でき、1つのレンズタイプから目に見えないワイドFoVレンズへのゼロショットの一般化まで可能で、性能劣化を最小限に抑えることができる。
関連論文リスト
- AlignDiff: Learning Physically-Grounded Camera Alignment via Diffusion [0.5277756703318045]
本稿では,カメラ内在パラメータと外在パラメータをジェネリック・レイ・カメラ・モデルを用いて扱う新しいフレームワークを提案する。
従来のアプローチとは異なり、AlignDiffは意味論から幾何学的特徴へ焦点を移し、局所歪みのより正確なモデリングを可能にした。
実験により,提案手法は,推定光束の角誤差を8.2度,全体のキャリブレーション精度で著しく低減し,課題のある実世界のデータセットに対する既存手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-03-27T14:59:59Z) - S-R2D2: a spherical extension of the R2D2 deep neural network series paradigm for wide-field radio-interferometric imaging [0.0]
近年,無線干渉計(RI)における画像形成のために,「高ダイナミックレンジ画像用残留-残留DNNシリーズ」のR2D2パラダイムが導入された。
広視野望遠鏡の球面撮像要求を満たすための球面撮像拡張S-R2D2を提案する。
論文 参考訳(メタデータ) (2025-03-03T12:18:23Z) - 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文 参考訳(メタデータ) (2024-11-01T12:50:38Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [52.23806040289676]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - SphereDiffusion: Spherical Geometry-Aware Distortion Resilient Diffusion Model [63.685132323224124]
制御可能な球状パノラマ画像生成は、様々な領域でかなりの応用可能性を持っている。
本稿では,これらの課題に対処するために,SphereDiffusionの新しいフレームワークを提案する。
Structured3Dデータセットの実験では、SphereDiffusionは制御可能な球面画像生成の品質を大幅に改善し、平均して約35%のFIDを相対的に削減している。
論文 参考訳(メタデータ) (2024-03-15T06:26:46Z) - Local-to-Global Registration for Bundle-Adjusting Neural Radiance Fields [36.09829614806658]
ニューラルレージアンスフィールドの局所-グローバル登録法であるL2G-NeRFを提案する。
ピクセルワイドな局所アライメントは、ディープネットワークを介して教師なしの方法で学習される。
提案手法は,高忠実度再構築と大型カメラの誤認識の解消の観点から,現在の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2022-11-21T14:43:16Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - Leveraging Spatial and Photometric Context for Calibrated Non-Lambertian
Photometric Stereo [61.6260594326246]
空間と測光の両方を同時に活用できる効率的な完全畳み込みアーキテクチャを提案する。
分離可能な4D畳み込みと2D熱マップを使うことで、サイズが小さくなり、効率が向上する。
論文 参考訳(メタデータ) (2021-03-22T18:06:58Z) - Scattering Networks on the Sphere for Scalable and Rotationally
Equivariant Spherical CNNs [2.453627017761322]
我々は球面上に構築された散乱ネットワークを開発し、球面データに強力な表現空間を提供する。
一般化球面CNNフレームワークにおいて,散乱ネットワークを付加的なタイプの層として統合することにより,多くの実用的な応用で典型的な高分解能データに対して,その利用方法を示す。
論文 参考訳(メタデータ) (2021-02-04T19:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。