論文の概要: DEPTHOR: Depth Enhancement from a Practical Light-Weight dToF Sensor and RGB Image
- arxiv url: http://arxiv.org/abs/2504.01596v1
- Date: Wed, 02 Apr 2025 11:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:28.287713
- Title: DEPTHOR: Depth Enhancement from a Practical Light-Weight dToF Sensor and RGB Image
- Title(参考訳): DEPTHOR: 軽量DTOFセンサとRGB画像による深度向上
- Authors: Jijun Xiang, Xuan Zhu, Xianqi Wang, Yu Wang, Hong Zhang, Fei Guo, Xin Yang,
- Abstract要約: 本稿では,コンピュータビジョンにおける深度向上のための新しい補完方式DEPTHORを提案する。
まず、合成データセットの正確な基底真理から実世界のdToFデータをシミュレートし、ノイズロバストトレーニングを可能にする。
第2に,グローバルな深度関係と文脈情報を利用して,単眼深度推定(MDE)を組み込んだ新しいネットワークを設計し,課題領域の予測を改善する。
- 参考スコア(独自算出の注目度): 8.588871458005114
- License:
- Abstract: Depth enhancement, which uses RGB images as guidance to convert raw signals from dToF into high-precision, dense depth maps, is a critical task in computer vision. Although existing super-resolution-based methods show promising results on public datasets, they often rely on idealized assumptions like accurate region correspondences and reliable dToF inputs, overlooking calibration errors that cause misalignment and anomaly signals inherent to dToF imaging, limiting real-world applicability. To address these challenges, we propose a novel completion-based method, named DEPTHOR, featuring advances in both the training strategy and model architecture. First, we propose a method to simulate real-world dToF data from the accurate ground truth in synthetic datasets to enable noise-robust training. Second, we design a novel network that incorporates monocular depth estimation (MDE), leveraging global depth relationships and contextual information to improve prediction in challenging regions. On the ZJU-L5 dataset, our training strategy significantly enhances depth completion models, achieving results comparable to depth super-resolution methods, while our model achieves state-of-the-art results, improving Rel and RMSE by 27% and 18%, respectively. On a more challenging set of dToF samples we collected, our method outperforms SOTA methods on preliminary stereo-based GT, improving Rel and RMSE by 23% and 22%, respectively. Our Code is available at https://github.com/ShadowBbBb/Depthor
- Abstract(参考訳): DToFからの生信号を高精度で密度の高い深度マップに変換するためのガイダンスとしてRGB画像を使用する深度向上は、コンピュータビジョンにおいて重要な課題である。
既存の超解像ベースの手法は、公開データセット上で有望な結果を示すが、それらはしばしば、正確な領域対応や信頼できるdToF入力のような理想的な仮定に依存し、誤修正やdToFイメージング固有の異常信号の原因となるキャリブレーションエラーを見落とし、現実の応用性を制限する。
これらの課題に対処するために、トレーニング戦略とモデルアーキテクチャの両方の進歩を特徴とする、DEPTHORという新しい完成度に基づく手法を提案する。
まず,合成データセットの正確な基底真実から実世界のdToFデータをシミュレートし,ノイズロバスト学習を実現する手法を提案する。
第2に,グローバルな深度関係と文脈情報を利用して,単眼深度推定(MDE)を組み込んだ新しいネットワークを設計し,課題領域の予測を改善する。
ZJU-L5データセットでは,深度超解法に匹敵する結果を得るとともに,深度超解法に匹敵する結果を達成し,RelとRMSEをそれぞれ27%,RMSEを18%改善する。
私たちが収集したdToFサンプルのより困難なセットでは、予備ステレオベースGTでSOTA法より優れ、それぞれRelとRMSEを23%改善し、22%改善した。
私たちのコードはhttps://github.com/ShadowBbBb/Depthorで利用可能です。
関連論文リスト
- MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation [9.639797094021988]
MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。
我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
論文 参考訳(メタデータ) (2024-11-16T20:59:01Z) - Robust Depth Enhancement via Polarization Prompt Fusion Tuning [112.88371907047396]
様々な深度センサによる不正確な深度測定を改善するために偏光イメージングを利用するフレームワークを提案する。
まず、偏光データとセンサ深度マップから高密度で完全な深度マップを推定するために、ニューラルネットワークを訓練した学習ベースの戦略を採用する。
大規模データセット上で事前学習したRGBモデルを有効に活用するためのPPFT(Polarization Prompt Fusion Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:55:33Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - MIPI 2023 Challenge on RGB+ToF Depth Completion: Methods and Results [76.77266693620425]
深層学習により、RGB画像からの深度マップのより正確で効率的な完成と、粗いToF測定が可能になった。
異なる深度補完法の性能を評価するため,RGB+スパースToF深度補完コンペティションを組織した。
本稿では,競争の結果を提示し,トップパフォーマンス手法の長所と短所を解析する。
論文 参考訳(メタデータ) (2023-04-27T02:00:04Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - Consistent Depth Prediction under Various Illuminations using Dilated
Cross Attention [1.332560004325655]
我々は,インターネット3D屋内シーンを用いて照明を手動で調整し,写真リアルなRGB写真とその対応する深度とBRDFマップを作成することを提案する。
異なる照明条件下での深度予測の整合性を維持するため,これらの拡張された特徴に横断的な注意を払っている。
提案手法は,Variデータセットの最先端手法との比較により評価され,実験で有意な改善が見られた。
論文 参考訳(メタデータ) (2021-12-15T10:02:46Z) - Unpaired Single-Image Depth Synthesis with cycle-consistent Wasserstein
GANs [1.0499611180329802]
実環境深度のリアルタイム推定は、様々な自律システムタスクにとって必須のモジュールである。
本研究では、生成型ニューラルネットワークの分野における最近の進歩を、教師なしの単一画像深度合成に活用する。
論文 参考訳(メタデータ) (2021-03-31T09:43:38Z) - Light Field Reconstruction via Deep Adaptive Fusion of Hybrid Lenses [67.01164492518481]
本稿では,ハイブリットレンズを用いた高分解能光場(LF)画像の再構成問題について検討する。
本稿では,入力の特徴を包括的に活用できる新しいエンドツーエンド学習手法を提案する。
我々のフレームワークは、高解像度なLFデータ取得のコストを削減し、LFデータストレージと送信の恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2021-02-14T06:44:47Z) - Channel Attention based Iterative Residual Learning for Depth Map
Super-Resolution [58.626803922196146]
我々は、合成データセットで訓練されたDSRモデルは制限的であり、実世界のDSRタスクを扱うのに有効ではないと論じる。
我々は、異なる深度センサの現実世界の劣化に対処するために2つの貢献をしている。
4つのモジュールからなる実世界のDSRのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-02T09:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。