論文の概要: PCDepth: Pattern-based Complementary Learning for Monocular Depth
Estimation by Best of Both Worlds
- arxiv url: http://arxiv.org/abs/2402.18925v1
- Date: Thu, 29 Feb 2024 07:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:43:35.781877
- Title: PCDepth: Pattern-based Complementary Learning for Monocular Depth
Estimation by Best of Both Worlds
- Title(参考訳): PCDepth: 両者の長所による単眼深度推定のためのパターンベース補完学習
- Authors: Haotian Liu, Sanqing Qu, Fan Lu, Zongtao Bu, Florian Roehrbein, Alois
Knoll, Guang Chen
- Abstract要約: イベントカメラは、高時間分解能でシーンダイナミクスを記録し、単眼深度推定のためのリッチなシーン詳細を提供する。
MDEの既存の補完学習アプローチは、画像からの強度情報とイベントデータからのシーン詳細を融合して、シーン理解を改善する。
単眼深度推定(PCDepth)のためのパターンベース補完学習アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 15.823230141827358
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Event cameras can record scene dynamics with high temporal resolution,
providing rich scene details for monocular depth estimation (MDE) even at
low-level illumination. Therefore, existing complementary learning approaches
for MDE fuse intensity information from images and scene details from event
data for better scene understanding. However, most methods directly fuse two
modalities at pixel level, ignoring that the attractive complementarity mainly
impacts high-level patterns that only occupy a few pixels. For example, event
data is likely to complement contours of scene objects. In this paper, we
discretize the scene into a set of high-level patterns to explore the
complementarity and propose a Pattern-based Complementary learning architecture
for monocular Depth estimation (PCDepth). Concretely, PCDepth comprises two
primary components: a complementary visual representation learning module for
discretizing the scene into high-level patterns and integrating complementary
patterns across modalities and a refined depth estimator aimed at scene
reconstruction and depth prediction while maintaining an efficiency-accuracy
balance. Through pattern-based complementary learning, PCDepth fully exploits
two modalities and achieves more accurate predictions than existing methods,
especially in challenging nighttime scenarios. Extensive experiments on MVSEC
and DSEC datasets verify the effectiveness and superiority of our PCDepth.
Remarkably, compared with state-of-the-art, PCDepth achieves a 37.9%
improvement in accuracy in MVSEC nighttime scenarios.
- Abstract(参考訳): イベントカメラは、高時間分解能でシーンダイナミクスを記録でき、低レベルの照明でも単眼深度推定(MDE)のためのリッチなシーン詳細を提供する。
したがって、mde fuse intensity information from images and scene details from event data for better scene understanding のための既存の補足学習手法が提案されている。
しかし、ほとんどの方法は2つのモダリティをピクセルレベルで直接融合させ、魅力的な相補性は数ピクセルしか占めないハイレベルなパターンに主に影響することを無視する。
例えば、イベントデータはシーンオブジェクトの輪郭を補完する可能性が高い。
本稿では,このシーンを高レベルのパターンに分類して相補性を探索し,単眼深度推定(PCDepth)のためのパターンベース補完学習アーキテクチャを提案する。
具体的には、PCDepthは、シーンを高レベルのパターンに識別し、モダリティにまたがる補完パターンを統合する補完視覚表現学習モジュールと、効率・精度バランスを維持しつつ、シーンの再構築と深度予測を目的とした洗練された深度推定器の2つの主要コンポーネントから構成される。
パターンベースの補完学習を通じて、PCDepthは2つのモードを完全に活用し、特に夜間シナリオにおいて、既存の手法よりも正確な予測を行う。
MVSECおよびDSECデータセットの大規模な実験は、PCDepthの有効性と優位性を検証する。
注目すべきは、最先端のPCDepthと比較して、MVSECの夜間シナリオでは37.9%の精度向上が達成されていることである。
関連論文リスト
- BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation [25.047835960649167]
BetterDepthは、事前訓練されたMDEモデルからの予測を深度条件として取り込む条件拡散ベースの精錬機である。
小規模合成データセットの効率的なトレーニングにより、BetterDepthは最先端のゼロショットMDEパフォーマンスを実現する。
BetterDepthは、追加のトレーニングをすることなく、プラグイン・アンド・プレイで他のMDEモデルの性能を改善することができる。
論文 参考訳(メタデータ) (2024-07-25T11:16:37Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Dense Depth Distillation with Out-of-Distribution Simulated Images [30.79756881887895]
単分子深度推定(MDE)のためのデータフリー知識蒸留(KD)について検討する。
KDは、訓練された教師モデルからそれを圧縮し、対象領域でのトレーニングデータを欠くことにより、現実世界の深度知覚タスクの軽量モデルを学ぶ。
提案手法は, トレーニング画像の1/6に留まらず, ベースラインKDのマージンが良好であり, 性能も若干向上していることを示す。
論文 参考訳(メタデータ) (2022-08-26T07:10:01Z) - EdgeConv with Attention Module for Monocular Depth Estimation [4.239147046986999]
正確な深度マップを生成するためには,モデルがシーンの構造情報を学習することが重要である。
単眼深度推定の難しさを解決するために,Patch-Wise EdgeConv Module (PEM) と EdgeConv Attention Module (EAM) を提案する。
提案手法は,NYU Depth V2 と KITTI スプリットの2つの一般的なデータセットを用いて評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-06-16T08:15:20Z) - Boosting Monocular Depth Estimation Models to High-Resolution via
Content-Adaptive Multi-Resolution Merging [14.279471205248534]
本研究では,一貫したシーン構造と高周波の詳細が深度推定性能に与える影響を示す。
本稿では,画像全体の深さ推定を改善する二重推定法と,局所的な詳細を付加するパッチ選択法を提案する。
異なる解像度での推定とコンテキストの変化を組み合わせることで、高精細度でマルチメガピクセルの深度マップを作成できることを実証した。
論文 参考訳(メタデータ) (2021-05-28T17:55:15Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - S2R-DepthNet: Learning a Generalizable Depth-specific Structural
Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。
我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。
当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文 参考訳(メタデータ) (2021-04-02T03:55:41Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。