論文の概要: CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation
- arxiv url: http://arxiv.org/abs/2511.16428v1
- Date: Thu, 20 Nov 2025 14:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.680975
- Title: CylinderDepth: Cylindrical Spatial Attention for Multi-View Consistent Self-Supervised Surround Depth Estimation
- Title(参考訳): CylinderDepth:多視点連続自己監督型全深度推定のための円筒型空間アテンション
- Authors: Samer Abualhanud, Christian Grannemann, Max Mehltretter,
- Abstract要約: 自己教師付きサラウンドビュー深度推定は、複数の最小重畳された画像から360視野の高密度で低コストな3D知覚を可能にする。
しかし、既存の手法のほとんどは、重なり合う画像の間に矛盾する深さ推定に悩まされている。
本稿では,高密度,メートル法,クロスビューに一貫性のある深度を予測できる,時間同期型マルチカメラリグの幾何誘導手法を提案する。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised surround-view depth estimation enables dense, low-cost 3D perception with a 360° field of view from multiple minimally overlapping images. Yet, most existing methods suffer from depth estimates that are inconsistent between overlapping images. Addressing this limitation, we propose a novel geometry-guided method for calibrated, time-synchronized multi-camera rigs that predicts dense, metric, and cross-view-consistent depth. Given the intrinsic and relative orientation parameters, a first depth map is predicted per image and the so-derived 3D points from all images are projected onto a shared unit cylinder, establishing neighborhood relations across different images. This produces a 2D position map for every image, where each pixel is assigned its projected position on the cylinder. Based on these position maps, we apply an explicit, non-learned spatial attention that aggregates features among pixels across images according to their distances on the cylinder, to predict a final depth map per image. Evaluated on the DDAD and nuScenes datasets, our approach improves the consistency of depth estimates across images and the overall depth compared to state-of-the-art methods.
- Abstract(参考訳): 自己教師付きサラウンドビュー深度推定は、複数の最小重畳された画像から360度視野を持つ高密度で低コストな3D知覚を可能にする。
しかし、既存の手法のほとんどは、重なり合う画像の間に矛盾する深さ推定に悩まされている。
この制限に対処するため、高密度, メートル法, クロスビュー一貫性の深度を予測できる、キャリブレーションされた時間同期マルチカメラリグの新しい幾何誘導手法を提案する。
内在的および相対的配向パラメータが与えられた場合、画像毎に第1の深度マップが予測され、すべての画像から得られたいわゆる3Dポイントが共有ユニットシリンダに投影され、異なる画像間の近傍関係が確立される。
これにより、各画像の2次元位置マップが作成され、各ピクセルはシリンダー上に投影された位置を割り当てられる。
これらの位置マップに基づいて、画像間の特徴をシリンダー上の距離に応じて集約し、画像ごとの最終的な深度マップを予測する。
DDAD と nuScenes のデータセットから評価し,画像間の深さ推定の整合性および全体深度を,最先端の手法と比較して改善する。
関連論文リスト
- FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers [91.59069344768858]
周波数対応位置深度埋め込み (FreqPDE) を導入し, 空間情報と2次元画像特徴を付加して3次元検出変換器デコーダを提案する。
FreqPDEは2D画像特徴と3D位置埋め込みを組み合わせることで、クエリデコーディングのための3D深度認識機能を生成する。
論文 参考訳(メタデータ) (2025-10-17T07:36:54Z) - Refinement of Monocular Depth Maps via Multi-View Differentiable Rendering [6.372979654151044]
現在の最先端のモノクル深度推定器は、広範囲なデータセットで訓練され、よく一般化されているが、多くのアプリケーションに必要な3D一貫性が欠如している。
本稿では,これらの一般化単分子深度推定手法の強度を多視点データと組み合わせ,これを解析・合成最適化問題としてフレーミングする。
提案手法は,室内シナリオの難易度においても,詳細な,高品質なビュー一貫性のある,正確な深度マップを生成でき,また,そのようなデータセット上での最先端のマルチビュー深度再構成手法よりも優れる。
論文 参考訳(メタデータ) (2024-10-04T18:50:28Z) - Robust and Flexible Omnidirectional Depth Estimation with Multiple 360-degree Cameras [8.850391039025077]
我々は、複数の360度カメラの幾何的制約と冗長情報を用いて、頑健で柔軟な全方位深度推定を実現する。
この2つのアルゴリズムは, 土壌パノラマ入力を施した場合でも, 精度よく深度マップを予測し, 最先端性能を実現する。
論文 参考訳(メタデータ) (2024-09-23T07:31:48Z) - Calibrating Panoramic Depth Estimation for Practical Localization and
Mapping [20.621442016969976]
周囲環境の絶対深度値は, 局所化, ナビゲーション, 3次元構造推定など, 様々な補助技術にとって重要な手がかりとなる。
本研究では,パノラマ画像から推定される精度の高い深度が,3次元情報を必要とする幅広い下流タスクに対して,強力で軽量な入力として機能することを提案する。
論文 参考訳(メタデータ) (2023-08-27T04:50:05Z) - Understanding Depth Map Progressively: Adaptive Distance Interval
Separation for Monocular 3d Object Detection [38.96129204108353]
いくつかの単分子3D検出技術は、深度推定タスクからの補助深度マップに依存している。
本稿では,深度マップの新たな視点を取り入れたAdaptive Distance Interval Separation Network (ADISN) というフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T13:32:53Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z) - Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。
まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。
これらの深度マップは、異なるビューを粗く整列するために使用される。
本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T21:28:54Z) - Depth Completion Using a View-constrained Deep Prior [73.21559000917554]
近年の研究では、畳み込みニューラルネットワーク(CNN)の構造が、自然画像に有利な強い先行性をもたらすことが示されている。
この前者はディープ・イメージ・先行 (DIP) と呼ばれ、画像の装飾や塗装といった逆問題において有効な正則化器である。
我々は、DIPの概念を深度画像に拡張し、色画像とノイズと不完全な目標深度マップから、CNNネットワーク構造を先行して復元された深度マップを再構成する。
論文 参考訳(メタデータ) (2020-01-21T21:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。