Fugu-MT 論文翻訳(概要): On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation

論文の概要: On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation

arxiv url: http://arxiv.org/abs/2209.08747v3
Date: Mon, 18 Mar 2024 00:45:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 06:58:04.380662
Title: On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation
Title（参考訳）: 自己監督型単眼深度推定におけるロバストなクロスビュー整合性について
Authors: Haimei Zhao, Jing Zhang, Zhuo Chen, Bo Yuan, Dacheng Tao,
Abstract要約: 本論文では,2種類の堅牢なクロスビュー整合性について検討する。深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
参考スコア（独自算出の注目度）: 56.97699793236174
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Remarkable progress has been made in self-supervised monocular depth estimation (SS-MDE) by exploring cross-view consistency, e.g., photometric consistency and 3D point cloud consistency. However, they are very vulnerable to illumination variance, occlusions, texture-less regions, as well as moving objects, making them not robust enough to deal with various scenes. To address this challenge, we study two kinds of robust cross-view consistency in this paper. Firstly, the spatial offset field between adjacent frames is obtained by reconstructing the reference frame from its neighbors via deformable alignment, which is used to align the temporal depth features via a Depth Feature Alignment (DFA) loss. Secondly, the 3D point clouds of each reference frame and its nearby frames are calculated and transformed into voxel space, where the point density in each voxel is calculated and aligned via a Voxel Density Alignment (VDA) loss. In this way, we exploit the temporal coherence in both depth feature space and 3D voxel space for SS-MDE, shifting the "point-to-point" alignment paradigm to the "region-to-region" one. Compared with the photometric consistency loss as well as the rigid point cloud alignment loss, the proposed DFA and VDA losses are more robust owing to the strong representation power of deep features as well as the high tolerance of voxel density to the aforementioned challenges. Experimental results on several outdoor benchmarks show that our method outperforms current state-of-the-art techniques. Extensive ablation study and analysis validate the effectiveness of the proposed losses, especially in challenging scenes. The code and models are available at https://github.com/sunnyHelen/RCVC-depth.
Abstract（参考訳）: 自己教師付き単眼深度推定(SS-MDE)において、例えば、光度整合性や3次元点雲の整合性について検討することで、顕著な進展が見られた。しかし、照明のバラツキ、オクルージョン、テクスチャのない領域、移動物体に非常に弱いため、様々な場面を扱えるほど頑丈ではない。この課題に対処するため,本稿では2種類の堅牢なクロスビュー整合性について検討する。第一に、隣接するフレーム間の空間オフセットフィールドは、変形可能なアライメントにより、隣接するフレームから参照フレームを再構成し、Depth Feature Alignment(DFA)ロスを介して時間深度特徴を整列させる。次に、基準フレームとその近傍フレームの3D点雲を算出してボクセル空間に変換し、ボクセルの点密度を算出し、ボクセル密度アライメント(VDA)損失を介して整列させる。このようにして、SS-MDEの深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを利用して、「ポイント・ツー・ポイント」アライメントパラダイムを「リージョン・ツー・リージョン」パラダイムにシフトする。光度整合性損失や剛性点雲のアライメント損失と比較して、DFAとVDAの損失は、深い特徴の強い表現力と上記の課題に対するボクセル密度の高い耐性のため、より堅牢である。いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。大規模なアブレーション研究と分析は、特に挑戦的な場面において、提案された損失の有効性を検証した。コードとモデルはhttps://github.com/sunnyHelen/RCVC-deepth.comで公開されている。

関連論文リスト

LDRFusion: A LiDAR-Dominant multimodal refinement framework for 3D object detection [5.6537425944368405]
既存のLiDAR-Camera融合法は3次元物体検出において大きな成果を上げている。我々は,LDRFusionを提案する。LDRFusionは,マルチセンサフュージョンのための新しい2段階改良フレームワークである。当社のフレームワークは,複数のカテゴリと難易度をまたいだパフォーマンスを継続的に達成しています。
論文参考訳（メタデータ） (2025-07-22T04:35:52Z)
Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [4.196626042312499]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文参考訳（メタデータ） (2025-06-17T07:04:07Z)
Seurat: From Moving Points to Depth [66.65189052568209]
本研究では,2次元軌跡の空間的関係と時間的変化を調べ,相対的な深度を推定する手法を提案する。提案手法は,様々な領域にわたる時間的スムーズかつ高精度な深度予測を実現する。
論文参考訳（メタデータ） (2025-04-20T17:37:02Z)
Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T14:42:27Z)
DepthLab: From Partial to Complete [80.58276388743306]
不足する値は、幅広いアプリケーションにわたる深度データにとって共通の課題である。この作業は、イメージ拡散プリエントを利用した基礎深度塗装モデルであるDepthLabと、このギャップを埋めるものだ。提案手法は,3Dシーンのインペイント,テキストから3Dシーン生成,DUST3Rによるスパースビュー再構成,LiDAR深度補完など,様々なダウンストリームタスクにおいて有用であることを示す。
論文参考訳（メタデータ） (2024-12-24T04:16:38Z)
Self-Supervised Scene Flow Estimation with Point-Voxel Fusion and Surface Representation [30.355128117680444]
シーンフロー推定は、点雲の2つの連続するフレーム間の点の3次元運動場を生成することを目的としている。既存の点ベースの手法は点雲の不規則性を無視し、長距離依存を捉えるのが困難である。本稿では,分散グリッドアテンションとシフトウインドウ戦略に基づくボクセルブランチを用いて,長距離依存性を捕捉するポイントボクセル融合法を提案する。
論文参考訳（メタデータ） (2024-10-17T09:05:15Z)
Gaussian Splatting with Localized Points Management [52.009874685460694]
局所的点管理(LPM)は、点加算と幾何校正の双方の最も高い需要において、これらの誤り貢献ゾーンを特定することができる。 LPMは特定ゾーンに点密度を適用し、これらの領域の前に位置する点の不透明度をリセットし、不条件点を補正する新たな機会を創出する。特に、LPMはバニラ3DGSとSpaceTimeGSの両方を改善して、リアルタイム速度を維持しながら最先端のレンダリング品質を実現している。
論文参考訳（メタデータ） (2024-06-06T16:55:07Z)
DCPI-Depth: Explicitly Infusing Dense Correspondence Prior to Unsupervised Monocular Depth Estimation [17.99904937160487]
DCPI-Depthは、これらの革新的なコンポーネントをすべて組み込んで、2つの双方向および協調的なストリームを結合するフレームワークである。複数の公開データセットにまたがる最先端のパフォーマンスと一般化性を実現し、既存のすべての先行技術を上回っている。
論文参考訳（メタデータ） (2024-05-27T08:55:17Z)
GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文参考訳（メタデータ） (2024-05-17T07:31:20Z)
Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging Scenarios [103.72094710263656]
本稿では,学習に基づくフレームワークを用いて,支配的モダリティの奥行きを識別し,統合する手法を提案する。本稿では,信頼度予測ネットワークを操り,潜在電位深度領域を特定する信頼マップを作成する新しい信頼損失を提案する。得られた信頼度マップを用いて,最終深度をエンドツーエンドに融合するマルチモーダル融合ネットワークを提案する。
論文参考訳（メタデータ） (2024-02-19T04:39:16Z)
DepthSSC: Depth-Spatial Alignment and Dynamic Voxel Resolution for Monocular 3D Semantic Scene Completion [0.4662017507844857]
DepthSSCはモノクロカメラのみをベースとしたセマンティックシーン補完手法である。従来の手法で観察された空間的不整合や歪みの問題を緩和する。複雑な3D構造の詳細をキャプチャーし、最先端のパフォーマンスを実現する効果を実証する。
論文参考訳（メタデータ） (2023-11-28T01:47:51Z)
OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。メインカーのカテゴリーでは最先端の手法よりも優れています。
論文参考訳（メタデータ） (2022-11-02T14:19:13Z)
IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文参考訳（メタデータ） (2022-03-22T10:14:08Z)
Consistent Depth Prediction under Various Illuminations using Dilated Cross Attention [1.332560004325655]
我々は,インターネット3D屋内シーンを用いて照明を手動で調整し,写真リアルなRGB写真とその対応する深度とBRDFマップを作成することを提案する。異なる照明条件下での深度予測の整合性を維持するため,これらの拡張された特徴に横断的な注意を払っている。提案手法は,Variデータセットの最先端手法との比較により評価され,実験で有意な改善が見られた。
論文参考訳（メタデータ） (2021-12-15T10:02:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。