論文の概要: M${^2}$Depth: Self-supervised Two-Frame Multi-camera Metric Depth Estimation
- arxiv url: http://arxiv.org/abs/2405.02004v1
- Date: Fri, 3 May 2024 11:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 13:05:54.642091
- Title: M${^2}$Depth: Self-supervised Two-Frame Multi-camera Metric Depth Estimation
- Title(参考訳): M${^2}$Depth: 自己監督型2フレームマルチカメラ距離推定
- Authors: Yingshuang Zou, Yikang Ding, Xi Qiu, Haoqian Wang, Haotian Zhang,
- Abstract要約: M$2$Depthは、自律運転における信頼性の高いスケール認識周囲の深さを予測するように設計されている。
まず、空間領域と時間領域のコストボリュームを個別に構成する。
本研究では,空間時空間情報を統合して高音量表示を実現する空間時空間融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 22.018059988585403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel self-supervised two-frame multi-camera metric depth estimation network, termed M${^2}$Depth, which is designed to predict reliable scale-aware surrounding depth in autonomous driving. Unlike the previous works that use multi-view images from a single time-step or multiple time-step images from a single camera, M${^2}$Depth takes temporally adjacent two-frame images from multiple cameras as inputs and produces high-quality surrounding depth. We first construct cost volumes in spatial and temporal domains individually and propose a spatial-temporal fusion module that integrates the spatial-temporal information to yield a strong volume presentation. We additionally combine the neural prior from SAM features with internal features to reduce the ambiguity between foreground and background and strengthen the depth edges. Extensive experimental results on nuScenes and DDAD benchmarks show M${^2}$Depth achieves state-of-the-art performance. More results can be found in https://heiheishuang.xyz/M2Depth .
- Abstract(参考訳): 本稿では,M${^2}$Depthとよばれる,自律走行における深度に関する信頼性の高いスケール認識を行うための,自己監督型2フレームマルチカメラ距離推定ネットワークを提案する。
M${^2}$Depthは、複数のカメラからの2フレームの画像を入力として時間的に隣接させ、高品質な周囲深度を生成する。
まず,空間的領域と時間的領域のコストボリュームを個別に構築し,空間的時間的情報を統合する空間的時間的融合モジュールを提案する。
また,前景と背景のあいまいさを軽減し,奥行きの強化を図るため,SAM特徴からの神経前駆体を内部特徴と組み合わせた。
nuScenes と DDAD ベンチマークの大規模な実験結果から,M${^2}$Depth が最先端の性能を達成することが示された。
さらなる結果はhttps://heiheishuang.xyz/M2Depth にある。
関連論文リスト
- GlocalFuse-Depth: Fusing Transformers and CNNs for All-day
Self-supervised Monocular Depth Estimation [0.12891210250935148]
本稿では,全日画像の自己教師付き深度推定のための2分岐ネットワークGlocalFuse-Depthを提案する。
GlocalFuse-Depthは、Oxford RobotCarデータセット上の全日画像の最先端結果を達成する。
論文 参考訳(メタデータ) (2023-02-20T10:20:07Z) - Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized
Photography [54.36608424943729]
2秒で取得した12メガピクセルのRAWフレームの「長バースト」では,自然手震動のみからの視差情報で高品質のシーン深度を回復できることが示されている。
我々は、長時間バーストデータにニューラルRGB-D表現を適合させるテスト時間最適化手法を考案し、シーン深度とカメラモーションを同時に推定する。
論文 参考訳(メタデータ) (2022-12-22T18:54:34Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。