論文の概要: DASP: Self-supervised Nighttime Monocular Depth Estimation with Domain Adaptation of Spatiotemporal Priors
- arxiv url: http://arxiv.org/abs/2512.14536v1
- Date: Tue, 16 Dec 2025 16:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.778378
- Title: DASP: Self-supervised Nighttime Monocular Depth Estimation with Domain Adaptation of Spatiotemporal Priors
- Title(参考訳): DASP:時空間事前の領域適応による夜間単眼深度自動推定
- Authors: Yiheng Huang, Junhong Chen, Anqi Ning, Zhanhong Liang, Nick Michiels, Luc Claesen, Wenyin Liu,
- Abstract要約: 夜間の深度推定に先行情報を活用する自己教師型フレームワーク DASP を提案する。
具体的には、ターゲットフレームとソースフレームを双方向に共有した3次元空間に投影する3次元整合性投影損失を提案する。
本手法は,夜間深度推定のための最先端性能を実現する。
- 参考スコア(独自算出の注目度): 6.693305091058083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation has achieved notable success under daytime conditions. However, its performance deteriorates markedly at night due to low visibility and varying illumination, e.g., insufficient light causes textureless areas, and moving objects bring blurry regions. To this end, we propose a self-supervised framework named DASP that leverages spatiotemporal priors for nighttime depth estimation. Specifically, DASP consists of an adversarial branch for extracting spatiotemporal priors and a self-supervised branch for learning. In the adversarial branch, we first design an adversarial network where the discriminator is composed of four devised spatiotemporal priors learning blocks (SPLB) to exploit the daytime priors. In particular, the SPLB contains a spatial-based temporal learning module (STLM) that uses orthogonal differencing to extract motion-related variations along the time axis and an axial spatial learning module (ASLM) that adopts local asymmetric convolutions with global axial attention to capture the multiscale structural information. By combining STLM and ASLM, our model can acquire sufficient spatiotemporal features to restore textureless areas and estimate the blurry regions caused by dynamic objects. In the self-supervised branch, we propose a 3D consistency projection loss to bilaterally project the target frame and source frame into a shared 3D space, and calculate the 3D discrepancy between the two projected frames as a loss to optimize the 3D structural consistency and daytime priors. Extensive experiments on the Oxford RobotCar and nuScenes datasets demonstrate that our approach achieves state-of-the-art performance for nighttime depth estimation. Ablation studies further validate the effectiveness of each component.
- Abstract(参考訳): 自己監督型単分子深度推定は、昼間の条件下で顕著な成功を収めた。
しかし、視界の低さや照度の変化により夜間に顕著に劣化し、例えば、光が不足するとテクスチャのない領域が生まれ、動く物体がぼやけてしまう。
そこで本稿では,夜間深度推定に時空間前処理を利用するDANという自己教師型フレームワークを提案する。
特に、DASPは、時空間前兆を抽出する逆枝と、学習のための自己監督枝から構成される。
逆数分岐では、まず、識別器が4つの考案された時空間事前学習ブロック(SPLB)から構成される対数ネットワークを設計する。
特に、SPLBは、直交差分を用いて時間軸に沿った動きに関連する変動を抽出する空間的時間的学習モジュール(STLM)と、局所的非対称な畳み込みとグローバルな軸方向の注意を伴い、多スケール構造情報をキャプチャする軸空間的学習モジュール(ASLM)とを含む。
STLMとASLMを組み合わせることで、テクスチャレス領域を復元し、動的オブジェクトによって引き起こされるぼやけた領域を推定するのに十分な時空間的特徴を得ることができる。
自己監督分岐では,対象フレームとソースフレームを双方向に共有した3次元空間に投影する3次元整合性投射損失を提案し,その2つの投影フレーム間の3次元差を損失として計算し,その3次元構造的整合性と日時先行を最適化する。
Oxford RobotCar と nuScenes データセットの大規模な実験により,本手法が夜間深度推定の最先端性能を実現することを示す。
アブレーション研究は各成分の有効性をさらに検証する。
関連論文リスト
- Spatio-Temporal Context Learning with Temporal Difference Convolution for Moving Infrared Small Target Detection [25.15274799496491]
小型目標検出(IR)の移動は、無人航空機(UAV)や赤外線サーチシステムなどの実用化において重要な役割を担っている。
正確な時間的特徴モデリングは、典型的には時間的差または時間的(3D)畳み込みによって達成される、移動目標検出に不可欠である。
本稿では,正確な目標検出のための時間的特徴を効果的に抽出し,拡張する移動IRSNetを提案する。
論文 参考訳(メタデータ) (2025-11-11T09:46:43Z) - DVLO4D: Deep Visual-Lidar Odometry with Sparse Spatial-temporal Fusion [28.146811420532455]
DVLO4Dは,空間-時空間融合を利用して精度とロバスト性を向上する新しい視覚-LiDARオドメトリーフレームワークである。
提案手法は,82msの予測時間を持つ高効率で,実時間展開の可能性を秘めている。
論文 参考訳(メタデータ) (2025-09-07T11:43:11Z) - Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-06T16:29:04Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Learning Monocular Depth in Dynamic Environment via Context-aware
Temporal Attention [9.837958401514141]
マルチフレーム単眼深度推定のためのコンテキスト対応テンポラルアテンション誘導ネットワークであるCTA-Depthを提案する。
提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-05-12T11:48:32Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。