論文の概要: Depth AnyEvent: A Cross-Modal Distillation Paradigm for Event-Based Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2509.15224v1
- Date: Thu, 18 Sep 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.401945
- Title: Depth AnyEvent: A Cross-Modal Distillation Paradigm for Event-Based Monocular Depth Estimation
- Title(参考訳): Depth AnyEvent: イベントベースの単眼深度推定のためのクロスモーダル蒸留パラダイム
- Authors: Luca Bartolomei, Enrico Mannocci, Fabio Tosi, Matteo Poggi, Stefano Mattoccia,
- Abstract要約: イベントカメラは、スパースで高時間解像度の視覚情報をキャプチャする。
深層深度アノテーションによる大規模データセットの欠如は、イベントデータから学習に基づく単眼深度推定を妨げている。
ビジョンファウンデーションモデル(VFM)を利用した高密度プロキシラベル生成のためのクロスモーダル蒸留パラダイムを提案する。
我々の戦略は、RGBフレームに空間的に整合したイベントストリーム、利用可能なオフザシェルフの簡単なセットアップ、大規模VFMの堅牢性を活用することが必要である。
- 参考スコア(独自算出の注目度): 47.90167568304715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras capture sparse, high-temporal-resolution visual information, making them particularly suitable for challenging environments with high-speed motion and strongly varying lighting conditions. However, the lack of large datasets with dense ground-truth depth annotations hinders learning-based monocular depth estimation from event data. To address this limitation, we propose a cross-modal distillation paradigm to generate dense proxy labels leveraging a Vision Foundation Model (VFM). Our strategy requires an event stream spatially aligned with RGB frames, a simple setup even available off-the-shelf, and exploits the robustness of large-scale VFMs. Additionally, we propose to adapt VFMs, either a vanilla one like Depth Anything v2 (DAv2), or deriving from it a novel recurrent architecture to infer depth from monocular event cameras. We evaluate our approach with synthetic and real-world datasets, demonstrating that i) our cross-modal paradigm achieves competitive performance compared to fully supervised methods without requiring expensive depth annotations, and ii) our VFM-based models achieve state-of-the-art performance.
- Abstract(参考訳): イベントカメラは、スパースで高時間分解能の視覚情報をキャプチャし、特に高速な動きと強く変化する照明条件を持つ挑戦的な環境に適している。
しかし, 深層深度アノテーションを用いた大規模データセットの欠如は, イベントデータからの学習に基づく単眼深度推定を妨げている。
この制限に対処するため,ビジョン・ファンデーション・モデル(VFM)を利用した高密度プロキシ・ラベルを生成するためのクロスモーダル蒸留パラダイムを提案する。
我々の戦略は、RGBフレームに空間的に整合したイベントストリーム、利用可能なオフザシェルフの簡単なセットアップ、大規模VFMの堅牢性を活用することが必要である。
さらに,Depth Anything v2(DAv2)のようなバニラであるVFMを適応するか,あるいはモノクロイベントカメラから奥行きを推定するための新しい再帰アーキテクチャを提案する。
合成および実世界のデータセットを用いて我々のアプローチを評価し、それを実証する。
一 当社のクロスモーダルパラダイムは、高価な深度アノテーションを必要とせず、完全に監督された方法と比較して競争性能を達成し、
二 VFM を用いたモデルが最先端の性能を達成すること。
関連論文リスト
- UniCT Depth: Event-Image Fusion Based Monocular Depth Estimation with Convolution-Compensated ViT Dual SA Block [6.994911870644179]
ローカルおよびグローバルな特徴をモデル化するために,CNNとトランスフォーマーを統一するイベントイメージ融合手法UniCT Depthを提案する。
We show that UniCT Depth are outperforming existing image, event, and fusion-based monocular depth estimation method across key metrics。
論文 参考訳(メタデータ) (2025-07-26T13:29:48Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - RGB-Thermal Infrared Fusion for Robust Depth Estimation in Complex Environments [0.0]
本稿では,深度推定精度とロバスト性を向上させるマルチモーダル深度推定モデルRTFusionを提案する。
このモデルは、相互補完的アライメント(MCA)モジュールからなる独自の融合機構であるEGFusionを組み込んでいる。
MS2およびViViD++データセットの実験では、提案モデルが高品質な深度マップを一貫して生成していることが示されている。
論文 参考訳(メタデータ) (2025-03-05T01:35:14Z) - Self-supervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [16.673178271652553]
自己監督型単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。
我々は,自己教師付き単眼深度推定のための独特の認知学習プロセスを備えた生成的拡散モデルを用いる。
我々は,KITTIとMake3Dデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-06-14T07:31:20Z) - Self-supervised Event-based Monocular Depth Estimation using Cross-modal
Consistency [18.288912105820167]
EMoDepth という自己教師型イベントベース単眼深度推定フレームワークを提案する。
EMoDepthは、ピクセル座標内のイベントに整合した強度フレームからのクロスモーダル一貫性を使用して、トレーニングプロセスを制約する。
推論では、単分子深度予測にはイベントのみを使用する。
論文 参考訳(メタデータ) (2024-01-14T07:16:52Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。