論文の概要: Improved monocular depth prediction using distance transform over pre-semantic contours with self-supervised neural networks
- arxiv url: http://arxiv.org/abs/2605.08320v1
- Date: Fri, 08 May 2026 16:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.539914
- Title: Improved monocular depth prediction using distance transform over pre-semantic contours with self-supervised neural networks
- Title(参考訳): 自己教師型ニューラルネットワークを用いたプレセマンティック輪郭上の距離変換による単眼深度予測の改善
- Authors: Marwane Hariat, Antoine Manzanera, David Filliat,
- Abstract要約: 本研究では, 空間情報を向上させる手法として, プレセマンティックな輪郭に距離変換を適用した手法を提案する。
提案手法は, プレセマンティックな輪郭, 深さ, エゴモーションを共同で推定する。
この文脈において,距離変換が最適分散増強手法であることを理論的に実証する。
- 参考スコア(独自算出の注目度): 8.146936489399293
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular depth estimation (MDE) with self-supervised training approaches struggles in low-texture areas, where photometric losses may lead to ambiguous depth predictions. To address this, we propose a novel technique that enhances spatial information by applying a distance transform over pre-semantic contours, augmenting discriminative power in low texture regions. Our approach jointly estimates pre-semantic contours, depth and ego-motion. The pre-semantic contours are leveraged to produce new input images, with variance augmented by the distance transform in uniform areas. This approach results in more effective loss functions, enhancing the training process for depth and ego-motion. We demonstrate theoretically that the distance transform is the optimal variance-augmenting technique in this context. Through extensive experiments on KITTI, Cityscapes, Waymo, NYUv2 and ScanNet our model demonstrates robust performance, surpassing competing self-supervised methods in MDE.
- Abstract(参考訳): 自己教師型トレーニングアプローチによる単眼深度推定(MDE)は、光度損失が曖昧な深度予測に繋がる低テクスチャ領域で困難である。
そこで本稿では, 空間情報を強化する手法として, 低テクスチャ領域における識別力の増大と, 事前意味の輪郭に距離変換を適用し, 空間情報を強化する手法を提案する。
提案手法は, プレセマンティックな輪郭, 深さ, エゴモーションを共同で推定する。
プレセマンティックな輪郭を利用して新しい入力画像を生成する。
このアプローチにより、より効果的な損失関数が得られ、深度とエゴモーションのトレーニングプロセスが強化される。
この文脈において,距離変換が最適分散増強手法であることを理論的に実証する。
KITTI、Cityscapes、Waymo、NYUv2、ScanNetに関する広範な実験を通じて、我々のモデルは、MDEにおける競合する自己管理手法を越えながら、堅牢なパフォーマンスを示す。
関連論文リスト
- DepthART: Monocular Depth Estimation as Autoregressive Refinement Task [2.3884184860468136]
DepthART - Depth Autoregressive Refinement Taskとして定式化された新しいトレーニング手法を紹介する。
モデル自身の予測を入力として利用することにより、目標を残留最小化とし、トレーニングと推論手順の相違を効果的に軽減する。
提案手法を用いてHypersimデータセットをトレーニングすると、既存の生成的および識別的ベースラインと比較して、複数の未確認ベンチマークで優れた結果が得られる。
論文 参考訳(メタデータ) (2024-09-23T13:36:34Z) - Uncertainty-guided Optimal Transport in Depth Supervised Sparse-View 3D Gaussian [49.21866794516328]
3次元ガウシアンスプラッティングは、リアルタイムな新規ビュー合成において顕著な性能を示した。
これまでのアプローチでは、3Dガウスの訓練に奥行き監視を取り入れ、オーバーフィッティングを軽減してきた。
本研究では,3次元ガウスの深度分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:18:30Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN [9.185929396989083]
我々は、トランスフォーマーとCNNの区別を対照的に分析するために、スパースピクセルアプローチを採用している。
以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。
本稿では,高次微分,特徴融合,再校正による深度推定を改良したDGRモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-16T12:46:52Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - RISP: Rendering-Invariant State Predictor with Differentiable Simulation
and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。
本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。
提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文 参考訳(メタデータ) (2022-05-11T17:59:51Z) - NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor
Multi-view Stereo [97.07453889070574]
本稿では,従来のSfM再構成と学習に基づく先行手法を併用した多視点深度推定手法を提案する。
提案手法は室内シーンにおける最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-02T17:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。