論文の概要: RePer-360: Releasing Perspective Priors for 360$^\circ$ Depth Estimation via Self-Modulation
- arxiv url: http://arxiv.org/abs/2603.05999v1
- Date: Fri, 06 Mar 2026 07:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.296341
- Title: RePer-360: Releasing Perspective Priors for 360$^\circ$ Depth Estimation via Self-Modulation
- Title(参考訳): RePer-360: 自己変調による360$^\circ$depth推定の事前緩和
- Authors: Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang,
- Abstract要約: 視線画像に基づいてトレーニングされた最近の深度基礎モデルは、強い性能を実現するが、360$circ$画像に乏しく一般化する。
単分子パノラマ深さ推定のための歪みを考慮した自己変調フレームワークRePer-360を提案する。
RePer-360は、相補的な射影融合から、保存された事前訓練された視点下でのパノラマ領域適応に焦点を移すことで、標準的な微調整法を超越している。
- 参考スコア(独自算出の注目度): 20.850233169948634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent depth foundation models trained on perspective imagery achieve strong performance, yet generalize poorly to 360$^\circ$ images due to the substantial geometric discrepancy between perspective and panoramic domains. Moreover, fully fine-tuning these models typically requires large amounts of panoramic data. To address this issue, we propose RePer-360, a distortion-aware self-modulation framework for monocular panoramic depth estimation that adapts depth foundation models while preserving powerful pretrained perspective priors. Specifically, we design a lightweight geometry-aligned guidance module to derive a modulation signal from two complementary projections (i.e., ERP and CP) and use it to guide the model toward the panoramic domain without overwriting its pretrained perspective knowledge. We further introduce a Self-Conditioned AdaLN-Zero mechanism that produces pixel-wise scaling factors to reduce the feature distribution gap between the perspective and panoramic domains. In addition, a cubemap-domain consistency loss further improves training stability and cross-projection alignment. By shifting the focus from complementary-projection fusion to panoramic domain adaptation under preserved pretrained perspective priors, RePer-360 surpasses standard fine-tuning methods while using only 1\% of the training data. Under the same in-domain training setting, it further achieves an approximately 20\% improvement in RMSE. Code will be released upon acceptance.
- Abstract(参考訳): 視線画像に基づいて訓練された最近の深度基礎モデルは、視線とパノラマ領域の幾何的差により、強い性能を得るが、360$^\circ$画像に乏しく一般化する。
さらに、これらのモデルを完全に微調整するには、通常大量のパノラマデータが必要である。
この問題に対処するため,単分子パノラマ深度推定のための歪みを考慮した自己変調フレームワークRePer-360を提案する。
具体的には,2つの相補的投影(ERPとCP)から変調信号を導出する軽量な幾何整列誘導モジュールを設計し,事前訓練された視点知識を上書きすることなくパノラマ領域への誘導を行う。
さらに,視点とパノラマ領域間の特徴分布ギャップを低減するために,画素単位のスケーリング因子を生成するセルフコンディションAdaLN-Zero機構を導入する。
さらに、立方体マップ領域の整合性損失により、トレーニングの安定性とクロスプロジェクションアライメントがさらに向上する。
RePer-360は、補完射影融合から、保存された事前訓練された視点下でのパノラマ領域適応に焦点を移すことで、トレーニングデータのわずか1/%を使用しながら、標準的な微調整手法を超越している。
同じドメイン内トレーニング環境では、RMSEの約20%の改善が達成される。
コードは受理時にリリースされる。
関連論文リスト
- World-Shaper: A Unified Framework for 360° Panoramic Editing [57.174341220144605]
既存の視点に基づく画像編集手法ではパノラマの空間構造をモデル化できない。
一つの編集中心の設計にパノラマ生成と編集をブリッジする統合幾何認識フレームワークであるWorld-Shaperを提案する。
本手法はSOTA法と比較して, 幾何的整合性, 編集精度, テキスト制御性に優れる。
論文 参考訳(メタデータ) (2026-01-30T19:38:54Z) - Depth Anything in $360^\circ$: Towards Scale Invariance in the Wild [12.6239596554452]
私たちはDepth Anythingを、Depth Anything V2のパノラマ適応版である$360circ$(DA360)で紹介します。
我々の重要なイノベーションは、ViTバックボーンからシフトパラメータを学習し、モデルのスケール不変およびシフト不変の出力をスケール不変の見積に変換することです。
論文 参考訳(メタデータ) (2025-12-28T07:12:58Z) - SE360: Semantic Edit in 360$^\circ$ Panoramas via Hierarchical Data Construction [14.137976445056466]
SE360は、360$circ$ panoramasで複数条件のオブジェクトを編集するための新しいフレームワークである。
コアとなるのは,手作業による介入を伴わない,新たな粗大な自律データ生成パイプラインだ。
提案手法は,視覚的品質と意味的精度の両方において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-12-23T00:24:46Z) - Dual-Projection Fusion for Accurate Upright Panorama Generation in Robotic Vision [9.05196155518077]
本研究では,カメラ傾斜角を同時推定し,直立パノラマ画像の再構成を行うデュアルストリーム角認識ネットワークを提案する。
SUN360およびM3Dデータセットを用いた実験により,本手法は傾斜推定と直立パノラマ生成の両方において既存手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-11-30T14:28:21Z) - DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training [76.82789568988557]
DiT360は、パノラマ画像生成のための視点とパノラマデータを用いたハイブリッドトレーニングを行う、DiTベースのフレームワークである。
提案手法は,11の定量的指標間で境界の整合性と画像の忠実度を向上する。
論文 参考訳(メタデータ) (2025-10-13T17:59:15Z) - SphereDiff: Tuning-free Omnidirectional Panoramic Image and Video Generation via Spherical Latent Representation [31.305851707485967]
そこで我々はSphereDiffを紹介した。これはシームレスな360度パノラマ画像とビデオ生成のための新しいアプローチである。
我々は,多次元拡散を球状潜在空間に拡張し,事前学習した拡散モデルの直接利用を可能にする球状潜在サンプリング法を提案する。
提案手法は,高忠実度を維持しながら360度パノラマコンテンツを生成する既存手法よりも優れており,没入型AR/VRアプリケーションのための堅牢なソリューションとなっている。
論文 参考訳(メタデータ) (2025-04-19T19:59:11Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。