論文の概要: Manydepth2: Motion-Aware Self-Supervised Multi-Frame Monocular Depth Estimation in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2312.15268v6
- Date: Fri, 11 Oct 2024 23:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:02:32.977137
- Title: Manydepth2: Motion-Aware Self-Supervised Multi-Frame Monocular Depth Estimation in Dynamic Scenes
- Title(参考訳): Manydepth2: 動的シーンにおける動きを意識したマルチフレーム単眼深度推定
- Authors: Kaichen Zhou, Jia-Wang Bian, Qian Xie, Jian-Qing Zheng, Niki Trigoni, Andrew Markham,
- Abstract要約: 動的オブジェクトと静的背景の両方に対して正確な深度推定を実現するため,Marydepth2を提案する。
動的コンテンツによって引き起こされる課題に対処するために、光学的流れと粗い単分子深度を取り入れて擬似静的参照フレームを作成する。
このフレームを使用して、バニラターゲットフレームと協調してモーション対応のコストボリュームを構築する。
- 参考スコア(独自算出の注目度): 45.092076587934464
- License:
- Abstract: Despite advancements in self-supervised monocular depth estimation, challenges persist in dynamic scenarios due to the dependence on assumptions about a static world. In this paper, we present Manydepth2, to achieve precise depth estimation for both dynamic objects and static backgrounds, all while maintaining computational efficiency. To tackle the challenges posed by dynamic content, we incorporate optical flow and coarse monocular depth to create a pseudo-static reference frame. This frame is then utilized to build a motion-aware cost volume in collaboration with the vanilla target frame. Furthermore, to improve the accuracy and robustness of the network architecture, we propose an attention-based depth network that effectively integrates information from feature maps at different resolutions by incorporating both channel and non-local attention mechanisms. Compared to methods with similar computational costs, Manydepth2 achieves a significant reduction of approximately five percent in root-mean-square error for self-supervised monocular depth estimation on the KITTI-2015 dataset. The code could be found at https://github.com/kaichen-z/Manydepth2.
- Abstract(参考訳): 自己監督型単分子深度推定の進歩にもかかわらず、静的世界に関する仮定に依存するため、動的なシナリオでは課題が持続する。
本稿では,動的対象と静的背景の両方に対して,計算効率を保ちながら高精度な深度推定を実現するため,Multandepth2を提案する。
動的コンテンツによって引き起こされる課題に対処するために、光学的流れと粗い単分子深度を取り入れて擬似静的参照フレームを作成する。
このフレームを使用して、バニラターゲットフレームと協調してモーション対応のコストボリュームを構築する。
さらに,ネットワークアーキテクチャの精度と堅牢性を向上させるため,チャンネルと非ローカルのアテンション機構を組み込むことで,異なる解像度で特徴マップからの情報を効果的に統合するアテンションベースディープネットワークを提案する。
同様の計算コストの手法と比較して、Multedepth2は、KITTI-2015データセット上での自己教師付き単眼深度推定において、ルート平均二乗誤差を約5%削減する。
コードはhttps://github.com/kaichen-z/Manydepth2で確認できる。
関連論文リスト
- D$^3$epth: Self-Supervised Depth Estimation with Dynamic Mask in Dynamic Scenes [23.731667977542454]
D$3$epthは動的シーンにおける自己教師付き深度推定の新しい手法である。
これは2つの重要な視点から、動的オブジェクトの課題に取り組む。
既存の自己教師付き単分子深度推定ベースラインよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T16:07:00Z) - Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - Mining Supervision for Dynamic Regions in Self-Supervised Monocular Depth Estimation [23.93080319283679]
既存の手法では、画像再構成損失を中心に、画素の深さと動きを共同で推定する。
動的領域1は、深度と動きの推定に固有の曖昧さのため、これらの手法にとって重要な課題である。
本稿では,動的領域に対する擬似深度ラベルをトレーニングデータから活用する自己教師型トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-23T10:51:15Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。
我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。
現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-04-04T06:26:46Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。