論文の概要: Towards Robust Monocular Depth Estimation in Non-Lambertian Surfaces
- arxiv url: http://arxiv.org/abs/2408.06083v1
- Date: Mon, 12 Aug 2024 11:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:15:41.041010
- Title: Towards Robust Monocular Depth Estimation in Non-Lambertian Surfaces
- Title(参考訳): 非ランベルト面におけるロバストな単分子深さ推定に向けて
- Authors: Junrui Zhang, Jiaqi Li, Yachuan Huang, Yiran Wang, Jinghong Zheng, Liao Shen, Zhiguo Cao,
- Abstract要約: 単分子深度推定のための非ランベルト表面の局所的ガイダンスを提案する。
トレーニング中にランダムなトーン・マッピングを用いて、異なる照明入力に対してネットワークが正しい結果を予測できるようにする。
本手法は,BoosterとMirror3Dデータセットのゼロショットテストにおいて,33.39%と5.21%の精度向上を実現する。
- 参考スコア(独自算出の注目度): 12.241301077789235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of monocular depth estimation (MDE), many models with excellent zero-shot performance in general scenes emerge recently. However, these methods often fail in predicting non-Lambertian surfaces, such as transparent or mirror (ToM) surfaces, due to the unique reflective properties of these regions. Previous methods utilize externally provided ToM masks and aim to obtain correct depth maps through direct in-painting of RGB images. These methods highly depend on the accuracy of additional input masks, and the use of random colors during in-painting makes them insufficiently robust. We are committed to incrementally enabling the baseline model to directly learn the uniqueness of non-Lambertian surface regions for depth estimation through a well-designed training framework. Therefore, we propose non-Lambertian surface regional guidance, which constrains the predictions of MDE model from the gradient domain to enhance its robustness. Noting the significant impact of lighting on this task, we employ the random tone-mapping augmentation during training to ensure the network can predict correct results for varying lighting inputs. Additionally, we propose an optional novel lighting fusion module, which uses Variational Autoencoders to fuse multiple images and obtain the most advantageous input RGB image for depth estimation when multi-exposure images are available. Our method achieves accuracy improvements of 33.39% and 5.21% in zero-shot testing on the Booster and Mirror3D dataset for non-Lambertian surfaces, respectively, compared to the Depth Anything V2. The state-of-the-art performance of 90.75 in delta1.05 within the ToM regions on the TRICKY2024 competition test set demonstrates the effectiveness of our approach.
- Abstract(参考訳): 単眼深度推定(MDE)の分野では、一般的な場面において優れたゼロショット性能を持つモデルが最近出現している。
しかしながら、これらの手法は、これらの領域のユニークな反射特性のため、透明面やミラー面(ToM)のような非ランベルト面の予測に失敗することが多い。
従来は外部から提供されるToMマスクを利用して,RGB画像の直接インペイントにより,正確な深度マップを得ることが目的であった。
これらの手法は、追加の入力マスクの精度と、塗装中のランダムな色の使用に大きく依存する。
我々は、ベースラインモデルが、よく設計されたトレーニングフレームワークを通して、深度推定のために、非ランベルト面領域の特異性を直接学習できるようにすることを約束する。
そこで我々は、勾配領域からのMDEモデルの予測を制約し、その堅牢性を高める非ランベルト曲面地域ガイダンスを提案する。
この作業において照明が有意な影響があることに気付き、トレーニング中にランダムなトーン・マッピングを用いて、異なる照明入力に対してネットワークが正しい結果を予測できるようにする。
さらに、可変オートエンコーダを用いて複数の画像を融合し、マルチ露光画像が利用可能である場合に、最も有利な入力RGB画像を得るオプションの新規照明融合モジュールを提案する。
提案手法は,非ランベルト面に対するブースターおよびミラー3Dデータセットのゼロショット試験において,Depth Anything V2と比較して,33.39%,5.21%の精度向上を実現している。
TRICKY2024コンペティションテストセットにおけるToM領域のデルタ1.05における90.75の最先端性能は,本手法の有効性を示すものである。
関連論文リスト
- Robust Depth Enhancement via Polarization Prompt Fusion Tuning [112.88371907047396]
様々な深度センサによる不正確な深度測定を改善するために偏光イメージングを利用するフレームワークを提案する。
まず、偏光データとセンサ深度マップから高密度で完全な深度マップを推定するために、ニューラルネットワークを訓練した学習ベースの戦略を採用する。
大規模データセット上で事前学習したRGBモデルを有効に活用するためのPPFT(Polarization Prompt Fusion Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:55:33Z) - Q-SLAM: Quadric Representations for Monocular SLAM [85.82697759049388]
四角形のレンズを通して体積表現を再現する。
我々は、RGB入力からノイズの深い深さ推定を正すために二次仮定を用いる。
本研究では,新たな二次分割変換器を導入し,二次情報を集約する。
論文 参考訳(メタデータ) (2024-03-12T23:27:30Z) - Probabilistic Volumetric Fusion for Dense Monocular SLAM [33.156523309257786]
本研究では,高密度単分子SLAMと高速不確実性伝搬を利用して3次元シーンを再構成する手法を提案する。
提案手法は, 極めてノイズの多い深度推定値に対して頑健でありながら, 密集度, 精度, リアルタイムにシーンを3次元再構成することができる。
その結果,本手法は単分子SLAMからの直接拡散深度よりも92%精度が向上し,最大90%の精度向上が得られた。
論文 参考訳(メタデータ) (2022-10-03T23:53:35Z) - Uncertainty-Aware Deep Multi-View Photometric Stereo [100.97116470055273]
光度ステレオ(PS)は高周波表面の細部を復元するのに優れ、マルチビューステレオ(MVS)はPSによる低周波歪みを除去し、大域的な形状を維持するのに役立つ。
本稿では,PS と MVS の相補的強みを効果的に活用する手法を提案する。
我々は,不確実性を考慮したディープPSネットワークとディープMVSネットワークを用いて,画素ごとの表面の正規度と深さを推定する。
論文 参考訳(メタデータ) (2022-02-26T05:45:52Z) - Consistent Depth Prediction under Various Illuminations using Dilated
Cross Attention [1.332560004325655]
我々は,インターネット3D屋内シーンを用いて照明を手動で調整し,写真リアルなRGB写真とその対応する深度とBRDFマップを作成することを提案する。
異なる照明条件下での深度予測の整合性を維持するため,これらの拡張された特徴に横断的な注意を払っている。
提案手法は,Variデータセットの最先端手法との比較により評価され,実験で有意な改善が見られた。
論文 参考訳(メタデータ) (2021-12-15T10:02:46Z) - Wild ToFu: Improving Range and Quality of Indirect Time-of-Flight Depth
with RGB Fusion in Challenging Environments [56.306567220448684]
本稿では,ノイズの多い生のI-ToF信号とRGB画像を用いた学習に基づくエンド・ツー・エンドの深度予測ネットワークを提案する。
最終深度マップでは,ベースラインアプローチと比較して40%以上のRMSE改善が見られた。
論文 参考訳(メタデータ) (2021-12-07T15:04:14Z) - Facial Depth and Normal Estimation using Single Dual-Pixel Camera [81.02680586859105]
DP指向のDepth/Normalネットワークを導入し,3次元顔形状を再構成する。
これは、メートル法スケールでの深度マップと表面正規を含む、対応する地上3次元モデルを含んでいる。
近年のDPベース深度/正規推定法で最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-11-25T05:59:27Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Differentiable Diffusion for Dense Depth Estimation from Multi-view
Images [31.941861222005603]
深度マップへの拡散がRGB監督からの多視点再投射誤差を最小限に抑えるように、細かな点集合を最適化することにより、深度を推定する手法を提案する。
また,複雑なシーン再構成に必要な50k以上のポイントを同時に最適化できる効率的な最適化ルーチンを開発した。
論文 参考訳(メタデータ) (2021-06-16T16:17:34Z) - Learning Inter- and Intra-frame Representations for Non-Lambertian
Photometric Stereo [14.5172791293107]
2段階の畳み込みニューラルネットワーク(CNN)アーキテクチャを構築し、フレーム間およびフレーム内表現を構築します。
フレーム間およびフレーム間特徴抽出モジュールを配置する最適スキームを特定するために,ネットワーク設計の代替案を多数検討した。
論文 参考訳(メタデータ) (2020-12-26T11:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。