論文の概要: DA$^2$: Depth Anything in Any Direction
- arxiv url: http://arxiv.org/abs/2509.26618v1
- Date: Tue, 30 Sep 2025 17:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.239609
- Title: DA$^2$: Depth Anything in Any Direction
- Title(参考訳): DA$^2$:あらゆる方向の深さ
- Authors: Haodong Li, Wangguangdong Zheng, Jing He, Yuhao Liu, Xin Lin, Xin Yang, Ying-Cong Chen, Chunchao Guo,
- Abstract要約: パノラマにはフルのFoV(360$circtimes$180$circ$)があり、視点画像よりも完全な視覚的記述を提供する。
従来のメソッドはドメイン内の設定に制限されることが多いため、ゼロショットの一般化は不十分である。
DA$2$: $textbfD$epth $textbfA$nything in $textbfA$ny $textbfD$irection。
- 参考スコア(独自算出の注目度): 36.52106383466286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panorama has a full FoV (360$^\circ\times$180$^\circ$), offering a more complete visual description than perspective images. Thanks to this characteristic, panoramic depth estimation is gaining increasing traction in 3D vision. However, due to the scarcity of panoramic data, previous methods are often restricted to in-domain settings, leading to poor zero-shot generalization. Furthermore, due to the spherical distortions inherent in panoramas, many approaches rely on perspective splitting (e.g., cubemaps), which leads to suboptimal efficiency. To address these challenges, we propose $\textbf{DA}$$^{\textbf{2}}$: $\textbf{D}$epth $\textbf{A}$nything in $\textbf{A}$ny $\textbf{D}$irection, an accurate, zero-shot generalizable, and fully end-to-end panoramic depth estimator. Specifically, for scaling up panoramic data, we introduce a data curation engine for generating high-quality panoramic depth data from perspective, and create $\sim$543K panoramic RGB-depth pairs, bringing the total to $\sim$607K. To further mitigate the spherical distortions, we present SphereViT, which explicitly leverages spherical coordinates to enforce the spherical geometric consistency in panoramic image features, yielding improved performance. A comprehensive benchmark on multiple datasets clearly demonstrates DA$^{2}$'s SoTA performance, with an average 38% improvement on AbsRel over the strongest zero-shot baseline. Surprisingly, DA$^{2}$ even outperforms prior in-domain methods, highlighting its superior zero-shot generalization. Moreover, as an end-to-end solution, DA$^{2}$ exhibits much higher efficiency over fusion-based approaches. Both the code and the curated panoramic data will be released. Project page: https://depth-any-in-any-dir.github.io/.
- Abstract(参考訳): パノラマにはフルのFoV(360$^\circ\times$180$^\circ$)があり、視点画像よりも完全な視覚的記述を提供する。
この特徴により、3次元視覚においてパノラマ深度推定が牽引力を高めつつある。
しかし、パノラマデータが少ないため、従来の手法はドメイン内の設定に制限されることが多く、ゼロショットの一般化は不十分である。
さらに、パノラマに固有の球面歪みのため、多くのアプローチはパースペクティブスプリッティング(例えば立方体写像)に依存しており、最適以下の効率をもたらす。
これらの課題に取り組むために、$\textbf{DA}$$$^{\textbf{2}}$: $\textbf{D}$epth $\textbf{A}$nything in $\textbf{A}$ny $\textbf{D}$irection, a accurate, zero-shot generalizable and complete end-to-end panoramic depth estimatorを提案する。
具体的には、パノラマデータをスケールアップするために、高画質のパノラマ深度データを生成するデータキュレーションエンジンを導入し、パノラマRGB深度ペアを$543Kで作成し、合計で$607Kとなる。
球面歪みを緩和するために、球面座標を明示的に活用してパノラマ画像の特徴の球面幾何整合性を強制し、性能を向上するSphereViTを提案する。
複数のデータセットに関する包括的なベンチマークでは、DA$^{2}$'s SoTAのパフォーマンスが明らかに示されており、AbsRelを最強のゼロショットベースラインよりも平均38%改善している。
驚いたことに、DA$^{2}$はドメイン内メソッドよりも優れており、その優れたゼロショット一般化が強調されている。
さらに、エンドツーエンドのソリューションとして、DA$^{2}$は融合ベースのアプローチよりもはるかに高い効率を示す。
コードとキュレートされたパノラマデータの両方がリリースされる。
プロジェクトページ:https://depth-any-in-any-any-dir.github.io/。
関連論文リスト
- You Need a Transition Plane: Bridging Continuous Panoramic 3D Reconstruction with Perspective Gaussian Splatting [57.44295803750027]
本稿では,連続的なパノラマ3次元シーンをガウススプラッティングで橋渡しするための新しいフレームワークTPGSを提案する。
具体的には、個々の立方体面内で3Dガウスを最適化し、縫合されたパノラマ空間でそれらを微調整する。
屋内、屋外、エゴセントリック、ローミングのベンチマークデータセットの実験は、我々のアプローチが既存の最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-12T03:42:50Z) - Splatter-360: Generalizable 360$^{\circ}$ Gaussian Splatting for Wide-baseline Panoramic Images [52.48351378615057]
textitSplatter-360は、ワイドベースラインパノラマ画像を扱うための、エンドツーエンドの汎用3DGSフレームワークである。
パノラマ画像に固有の歪みを緩和する3D対応複投影エンコーダを提案する。
これにより、堅牢な3D対応機能表現とリアルタイムレンダリングが可能になる。
論文 参考訳(メタデータ) (2024-12-09T06:58:31Z) - DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting [56.101576795566324]
テキストから3D 360$circ$のシーン生成パイプラインを提示する。
提案手法は, 2次元拡散モデルの生成力を利用して, 自己複製を促進する。
当社の手法は,360ドル(約3万2000円)の視野内で,グローバルに一貫した3Dシーンを提供する。
論文 参考訳(メタデータ) (2024-04-10T10:46:59Z) - SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic
Segmentation [53.5256153325136]
PAnoramic Semantic (PASS) は、超広視野の視点に基づく完全なシーン認識を提供する。
通常、2次元パノラマ画像入力を持つPASS法は、画像歪みの解消に重点を置いているが、元の360円のデータの3D特性を考慮していない。
Panoramic Semantic (SGAT4PASS) のための球面形状認識変換器を提案する。
論文 参考訳(メタデータ) (2023-06-06T04:49:51Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z) - SphereDepth: Panorama Depth Estimation from Spherical Domain [17.98608948955211]
本稿では,新しいパノラマ深度推定法であるSphereDepthを提案する。
プロジェクション前処理なしで球面メッシュ上の深さを直接予測する。
パノラマ深度推定の最先端手法と同等の結果が得られる。
論文 参考訳(メタデータ) (2022-08-29T16:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。