論文の概要: On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2209.08747v3
- Date: Mon, 18 Mar 2024 00:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 06:58:04.380662
- Title: On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation
- Title(参考訳): 自己監督型単眼深度推定におけるロバストなクロスビュー整合性について
- Authors: Haimei Zhao, Jing Zhang, Zhuo Chen, Bo Yuan, Dacheng Tao,
- Abstract要約: 本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
- 参考スコア(独自算出の注目度): 56.97699793236174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remarkable progress has been made in self-supervised monocular depth estimation (SS-MDE) by exploring cross-view consistency, e.g., photometric consistency and 3D point cloud consistency. However, they are very vulnerable to illumination variance, occlusions, texture-less regions, as well as moving objects, making them not robust enough to deal with various scenes. To address this challenge, we study two kinds of robust cross-view consistency in this paper. Firstly, the spatial offset field between adjacent frames is obtained by reconstructing the reference frame from its neighbors via deformable alignment, which is used to align the temporal depth features via a Depth Feature Alignment (DFA) loss. Secondly, the 3D point clouds of each reference frame and its nearby frames are calculated and transformed into voxel space, where the point density in each voxel is calculated and aligned via a Voxel Density Alignment (VDA) loss. In this way, we exploit the temporal coherence in both depth feature space and 3D voxel space for SS-MDE, shifting the "point-to-point" alignment paradigm to the "region-to-region" one. Compared with the photometric consistency loss as well as the rigid point cloud alignment loss, the proposed DFA and VDA losses are more robust owing to the strong representation power of deep features as well as the high tolerance of voxel density to the aforementioned challenges. Experimental results on several outdoor benchmarks show that our method outperforms current state-of-the-art techniques. Extensive ablation study and analysis validate the effectiveness of the proposed losses, especially in challenging scenes. The code and models are available at https://github.com/sunnyHelen/RCVC-depth.
- Abstract(参考訳): 自己教師付き単眼深度推定(SS-MDE)において、例えば、光度整合性や3次元点雲の整合性について検討することで、顕著な進展が見られた。
しかし、照明のバラツキ、オクルージョン、テクスチャのない領域、移動物体に非常に弱いため、様々な場面を扱えるほど頑丈ではない。
この課題に対処するため,本稿では2種類の堅牢なクロスビュー整合性について検討する。
第一に、隣接するフレーム間の空間オフセットフィールドは、変形可能なアライメントにより、隣接するフレームから参照フレームを再構成し、Depth Feature Alignment(DFA)ロスを介して時間深度特徴を整列させる。
次に、基準フレームとその近傍フレームの3D点雲を算出してボクセル空間に変換し、ボクセルの点密度を算出し、ボクセル密度アライメント(VDA)損失を介して整列させる。
このようにして、SS-MDEの深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを利用して、「ポイント・ツー・ポイント」アライメントパラダイムを「リージョン・ツー・リージョン」パラダイムにシフトする。
光度整合性損失や剛性点雲のアライメント損失と比較して、DFAとVDAの損失は、深い特徴の強い表現力と上記の課題に対するボクセル密度の高い耐性のため、より堅牢である。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
大規模なアブレーション研究と分析は、特に挑戦的な場面において、提案された損失の有効性を検証した。
コードとモデルはhttps://github.com/sunnyHelen/RCVC-deepth.comで公開されている。
関連論文リスト
- CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging
Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。
本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。
得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:39:16Z) - Regularizing Self-supervised 3D Scene Flows with Surface Awareness and Cyclic Consistency [3.124750429062221]
2つの新たな一貫性損失を導入し、クラスタを拡大し、異なるオブジェクトに分散するのを防ぐ。
提案した損失はモデル独立であり、既存のモデルの性能を大幅に向上させるためにプラグアンドプレイ方式で使用できる。
また,4つの標準センサ一様駆動データセット上で,フレームワークの有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-12T11:00:39Z) - DepthSSC: Depth-Spatial Alignment and Dynamic Voxel Resolution for
Monocular 3D Semantic Scene Completion [0.4662017507844857]
DepthSSCはモノクロカメラのみをベースとしたセマンティックシーン補完手法である。
従来の手法で観察された空間的不整合や歪みの問題を緩和する。
複雑な3D構造の詳細をキャプチャーし、最先端のパフォーマンスを実現する効果を実証する。
論文 参考訳(メタデータ) (2023-11-28T01:47:51Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding
Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。
本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。
各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-03-22T10:14:08Z) - Consistent Depth Prediction under Various Illuminations using Dilated
Cross Attention [1.332560004325655]
我々は,インターネット3D屋内シーンを用いて照明を手動で調整し,写真リアルなRGB写真とその対応する深度とBRDFマップを作成することを提案する。
異なる照明条件下での深度予測の整合性を維持するため,これらの拡張された特徴に横断的な注意を払っている。
提案手法は,Variデータセットの最先端手法との比較により評価され,実験で有意な改善が見られた。
論文 参考訳(メタデータ) (2021-12-15T10:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。