論文の概要: DERD-Net: Learning Depth from Event-based Ray Densities
- arxiv url: http://arxiv.org/abs/2504.15863v1
- Date: Tue, 22 Apr 2025 12:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:25:12.889303
- Title: DERD-Net: Learning Depth from Event-based Ray Densities
- Title(参考訳): DERD-Net: イベントベースのレイ密度から深度を学ぶ
- Authors: Diego de Oliveira Hitzges, Suman Ghosh, Guillermo Gallego,
- Abstract要約: イベントカメラは、多視点ステレオ深度推定とSLAMのための有望な道を提供する。
本稿では,単眼・ステレオ両方のイベントカメラを用いた画素幅推定のための,スケーラブルでフレキシブルで適応可能なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.309936820480111
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Event cameras offer a promising avenue for multi-view stereo depth estimation and Simultaneous Localization And Mapping (SLAM) due to their ability to detect blur-free 3D edges at high-speed and over broad illumination conditions. However, traditional deep learning frameworks designed for conventional cameras struggle with the asynchronous, stream-like nature of event data, as their architectures are optimized for discrete, image-like inputs. We propose a scalable, flexible and adaptable framework for pixel-wise depth estimation with event cameras in both monocular and stereo setups. The 3D scene structure is encoded into disparity space images (DSIs), representing spatial densities of rays obtained by back-projecting events into space via known camera poses. Our neural network processes local subregions of the DSIs combining 3D convolutions and a recurrent structure to recognize valuable patterns for depth prediction. Local processing enables fast inference with full parallelization and ensures constant ultra-low model complexity and memory costs, regardless of camera resolution. Experiments on standard benchmarks (MVSEC and DSEC datasets) demonstrate unprecedented effectiveness: (i) using purely monocular data, our method achieves comparable results to existing stereo methods; (ii) when applied to stereo data, it strongly outperforms all state-of-the-art (SOTA) approaches, reducing the mean absolute error by at least 42%; (iii) our method also allows for increases in depth completeness by more than 3-fold while still yielding a reduction in median absolute error of at least 30%. Given its remarkable performance and effective processing of event-data, our framework holds strong potential to become a standard approach for using deep learning for event-based depth estimation and SLAM. Project page: https://github.com/tub-rip/DERD-Net
- Abstract(参考訳): イベントカメラは、高速および広範囲の照明条件下でぼやけのない3Dエッジを検出する能力により、多視点ステレオ深度推定と同時局在とマッピング(SLAM)のための有望な道を提供する。
しかし、従来のカメラ用に設計された従来のディープラーニングフレームワークは、個々の画像のような入力に最適化されたアーキテクチャであるため、非同期でストリームライクなイベントデータの性質に苦慮している。
本稿では,単眼・ステレオ両方のイベントカメラを用いた画素幅推定のための,スケーラブルでフレキシブルで適応可能なフレームワークを提案する。
3Dシーン構造は、既知のカメラのポーズを介して、イベントを宇宙にバックプロジェクションすることによって得られる光の空間密度を表す不均一空間画像(DSI)に符号化される。
我々のニューラルネットワークは、3D畳み込みと繰り返し構造を組み合わせたDSIの局所的な部分領域を処理し、深度予測に有用なパターンを認識する。
ローカル処理は、フル並列化による高速推論を可能にし、カメラの解像度に関わらず、一定の超低モデル複雑性とメモリコストを保証する。
標準ベンチマーク(MVSECおよびDSECデータセット)の実験は、前例のない効果を示した。
(i) 純粋な単分子データを用いて既存のステレオ手法に匹敵する結果を得る。
(II)ステレオデータに適用すると、平均絶対誤差を少なくとも42%削減し、最先端(SOTA)アプローチを強く上回る。
また,本手法では,3倍以上の深さ完全性向上が可能であり,中央値の絶対誤差が30%以上減少する傾向にある。
イベントデータの顕著なパフォーマンスと効果的な処理を考えると、私たちのフレームワークは、イベントベースの深度推定とSLAMにディープラーニングを使用するための標準的なアプローチになる可能性を持っている。
プロジェクトページ:https://github.com/tub-rip/DERD-Net
関連論文リスト
- Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized
Photography [54.36608424943729]
2秒で取得した12メガピクセルのRAWフレームの「長バースト」では,自然手震動のみからの視差情報で高品質のシーン深度を回復できることが示されている。
我々は、長時間バーストデータにニューラルRGB-D表現を適合させるテスト時間最適化手法を考案し、シーン深度とカメラモーションを同時に推定する。
論文 参考訳(メタデータ) (2022-12-22T18:54:34Z) - MEStereo-Du2CNN: A Novel Dual Channel CNN for Learning Robust Depth
Estimates from Multi-exposure Stereo Images for HDR 3D Applications [0.22940141855172028]
マルチ露光ステレオ深度推定のための新しいディープアーキテクチャを開発した。
アーキテクチャの立体深度推定コンポーネントとして,モノ・ステレオ・トランスファー学習アプローチをデプロイする。
性能の面では、提案モデルは最先端のモノクラーおよびステレオ深度推定法を超越している。
論文 参考訳(メタデータ) (2022-06-21T13:23:22Z) - DEVO: Depth-Event Camera Visual Odometry in Challenging Conditions [30.892930944644853]
本稿では,深度・高解像度イベントカメラのステレオ設定のための新しいリアルタイムビジュアル・オドメトリー・フレームワークを提案する。
本フレームワークは, 計算効率に対する精度と堅牢性を, 挑戦シナリオにおける高い性能にバランスさせる。
論文 参考訳(メタデータ) (2022-02-05T13:46:47Z) - 3D-FlowNet: Event-based optical flow estimation with 3D representation [2.062593640149623]
イベントベースのカメラは、高速モーション検出などの重要なタスクのためにフレームベースのカメラ制限を克服することができる。
ディープニューラルネットワークは、非同期で離散的なイベントデータを扱うようには適していない。
本稿では,3次元入力表現を処理し,光フロー推定を出力できる新しいネットワークアーキテクチャである3D-FlowNetを提案する。
論文 参考訳(メタデータ) (2022-01-28T17:28:15Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。